Diseño y explotación de un corpus histórico de textos oralizantes para el estudio del español clásico y moderno
DOI:
https://doi.org/10.5944/rhd.vol.9.2024.39834Palabras clave:
Lingüística de corpus, edición digital, TEITOK, historia del español, Edad ModernaResumen
En este artículo presentamos Oralia Diacrónica del Español (ODE), un corpus histórico de carácter especializado diseñado para investigar el léxico de la vida cotidiana y reconstruir la oralidad y la variación dialectal del español peninsular desde el siglo XVI hasta finales del siglo XIX. El corpus está compuesto por documentación inédita relativa a tres tipos textuales de inmediatez comunicativa: inventarios de bienes, declaraciones de testigos en juicios criminales y certificaciones periciales de cirujanos sobre personas heridas o fallecidas. ODE incluye las imágenes facsimilares de los manuscritos junto con la transcripción de los textos en lenguaje TEI-XML y cuenta, además, con lematización, etiquetación morfosintáctica y un sofisticado sistema de búsqueda en línea. En este trabajo explicamos el proceso de construcción de ODE y aportamos varios ejemplos que muestran las posibilidades de explotación de este recurso digital.
Descargas
Citas
Allés-Torrent, S. (2015). Edición digital y algunas tecnologías aliadas. Ínsula: revista de letras y ciencias humanas, 822, 18-21.
Blas Arroyo, J. L (2012). Tras las huellas de la variación y el cambio lingüístico a través de textos de inmediatez comunicativa. Fundamentos de un proyecto de sociolingüística histórica. En F. J. de Cos Ruiz y M. Franco Figueroa (Coords.), Actas del IX Congreso Internacional de Historia de la Lengua Española. Volumen 2 (pp. 1743-1762). Iberoamericana/Vervuert.
Burnard, L. (2014). What is the Text Encoding Initiative? How to add intelligent markup to digital resources. OpenEdition Press. https://doi.org/10.4000/books.oep.426.
Calderón Campos, M. (2018). Las declaraciones de esencia del siglo XVIII: un tipo textual para el estudio de la terminología anatómica. Dynamis, 38(2), 427-452. https://dx.doi.org/10.4321/s0211-95362018000200007.
Calderón Campos, M. (2019a). La edición de corpus lingüísticos en la plataforma TEITOK. El caso de Oralia diacrónica del español (ODE). CHIMERA: Revista de Corpus de Lenguas Romances y Estudios Lingüísticos, 6, 21-36.
Calderón Campos, M. (2019b). La configuración de la variedad meridional en el reino de Granada. En E. Bustos Gisbert y J. P. Sánchez Méndez (Eds.), La configuración histórica de las normas del castellano (pp. 109-134). Tirant Humanidades.
Calderón Campos, M. y Vaamonde, G. (2020). Oralia Diacrónica del Español: un nuevo corpus de la Edad Moderna. Scriptum Digital, 9, 167-189. https://doi.org/10.5565/rev/scriptum.108.
Claridge, C. (2008). Historical corpora. In A. Lüdeling y M. Kytö (Eds.), Corpus Linguistics: An International Handbook (pp. 242-259). Walter de Gruyter.
Christ, O., Schulze, B. M., Hofmann, Anja y König, Esther (1999). The IMS corpus workbench: Corpus query processor (CQP): User’s manual. Technical report, IMS, University of Stuttgart. https://corpora.ficlit.unibo.it/TCORIS/cqpman.pdf.
Dollinger, S. (2004). ‘Philological computing vs. ‘philological outsourcing’ and the compilation of historical corpora: a Late Modern English test case. Vienna English Working Papers (VIEWS), 13(2), 3-23
Evert, S. y Hardie, A. (2011). Twenty-first century Corpus Workbench: Updating a query architecture for the new millennium. Proceedings of the Corpus Linguistics 2011 Conference. University of Birmingham. https://www.birmingham.ac.uk/documents/college-artslaw/corpus/conference-archives/2011/paper-153.pdf
Fradejas Rueda, J. M. (2009-2010). La codificación XML/TEI de textos medievales. Memorabilia, 12, 219-247.
García-Miguel, J. M. (2022). Lingüística de corpus: de los datos textuales a la teoría lingüística. Estudios de Lingüística del Español, 45, 11-42. https://raco.cat/index.php/Elies/article/view/403735.
González Sopeña, I. (2022). Documentación notarial extremeña del siglo XVII en Oralia Diacrónica del Español (ODE): el léxico de la vida cotidiana a través de inventarios de bienes pacenses. Romanica Olomucensia, 34(1), 13-30. https://doi.org/10.5507/ro.2022.002.
Gries, S. (2009). Quantitative Corpus Linguistics with R: A practical introduction. Routledge.
Gries, S. y Berez, A. L. (2017). Linguistic Annotation in/for Corpus Linguistics. En N. Ide y J. Pustejovsky (Eds.), Handbook of Linguistic Annotation (pp. 379-410). Springer. https://doi.org/10.1007/978-94-024-0881-2_15.
Honkapohja, A., Kaislaniemi, S. y Marttila, V. (2009). Digital Editions for Corpus Linguistics: Representing manuscript reality in electronic corpora. En A. H. Jucker, D. Schreier y M. Hundt (Eds.): Corpora: Pragmatics and Discourse (pp. 451-475). Rodopi.
Huber, M. (2007). The Old Bailey Proceedings, 1674-1834: evaluating and annotating a corpus of 18th and 19th century spoken English. En A. Meurman-Solin y A. Nurmi (Eds.). Annotating variation and change. Helsinki: VARIENG. https://varieng.helsinki.fi/series/volumes/01/huber/.
Hunston, S. (2002). Corpora in Applied Linguistics, Cambridge. Cambridge University Press.
Janssen, M. (2012). NeoTag: A POS Tagger for Grammatical Neologism Detection. En N. Calzolari et al. (Eds.), Proceedings of the 8th International Conference on Language Resources and Evaluation (pp. 2118-2124). ELRA. http://www.lrec-conf.org/proceedings/lrec2012/pdf/1098_Paper.pdf.
Janssen, M. (2014). TEITOK - a Tokenized TEI enviroment. http://www.teitok.org/index.php.
Janssen, M. (2016). TEITOK: Text-Faithful Annotated Corpora. En N. Calzolari et al. (Eds.), Proceedings of the 10th International Conference on Language Resources and Evaluation (pp. 4037-4043). ELRA. https://aclanthology.org/L16-1637.pdf.
Janssen, M. y Vaamonde, G. (2020). Da edición dixital á análise lingüística. A creación de corpus históricos na plataforma TEITOK. En R. Álvarez y E. González Seoane (Eds.), Calen barbas, falen cartas. A escrita en galego na Idade Moderna (pp. 271-292). Consello da Cultura Galega (Ensaio & Investigación). https://consellodacultura.gal/publicacion.php?id=4373.
Kennedy, G. (1998). An Introduction to Corpus Linguistics. Longman.
Koch, P. y Oesterreicher, W. (1990[2007]). Lengua hablada en la Romania: español, francés, italiano. Gredos. Versión española de Araceli López Serena a patir del original alemán de 1990: Gesprochene Sprache in der Romania: Französisch, Italienisch, Spanisch. Tübingen: Niemeyer.
Koester, A. (2022). Building small specialised corpora. En A. O'Keeffe y M. J. McCarthy (Eds.), The Routledge Handbook of Corpus Linguistics (pp. 48-61). Routledge. https://doi.org/10.4324/9780367076399-5.
Kytö, M. (2011). Corpora and historical linguistics. Revista Brasileira de Linguística Aplicada, 11(2), 417-457. https://doi.org/10.1590/S1984-63982011000200007.
Kytö, M. y Walker, T. (2006). Guide to A Corpus of English Dialogues 1560-1760. Acta Universitatis Upsaliensis.
Leech, G. y Wilson, A. (1996). EAGLES. Recommendations for the Morphosyntactic Annotation of Corpora. http://www.ilc.cnr.it/EAGLES96/annotate/annotate.html.
Marttila, V. (2014). Creating Digital Editions for Corpus Linguistics. The Case of Potage Dyvers, a Family of six Middle English recipe collections [Tesis doctoral]. Universidad de Helsinki. http://hdl.handle.net/10138/135589.
McEnery, T, Xiao, R. y Tono, Y. (2006). Corpus-based language studies: An advanced resource book. Routledge.
Meurman-Solin, A. (2001). Structured text corpora in the study of language variation and change. Literary and Linguistic Computing, 16(1), 5-27.
Meurman-Solin, A. y Tyrkkö, J. (2013). Introduction. En A. Meurman-Solin y J. Tyrkkö (Eds.), Principles and Practices for the Digital Editing and Annotation of Diachronic Data. VARIENG. https://varieng.helsinki.fi/series/volumes/14/introduction.html.
Morala, J. R. (2012). Léxico e inventarios de bienes en los Siglos de Oro. En G. Clavería Nadal, M. Freixas, M. Prat Sabater y J. Torruella (Eds.), Historia del léxico: perspectivas de investigación (pp. 199-218). Iberoamericana/Vervuert.
Morala, J. R. (2014). El CorLexIn, un corpus para el estudio del léxico histórico y dialectal del Siglo de Oro. Scriptum Digital, 3, 5-28. https://doi.org/10.5565/rev/scriptum.47 .
Náñez Fernández, E. (2006). El diminutivo. Historia y funciones en el español clásico moderno. UAM Ediciones.
Nieto Jiménez, L. y Alvar Ezquerra, M. (2007). Nuevo tesoro lexicográfico del español (s. XVI – 1726). Arco Libros.
NGLE = RAE / ASALE (2011): Nueva gramática de la lengua española. Fonética y fonología. Espasa.
ODE = Calderón Campos, M. y María Teresa García-Godoy (2010-): Oralia Diacrónica del Español (ODE). [enero de 2024]. http://corpora.ugr.es/ode.
Penny, R. (2001). Variation and change in Spanish. Cambridge University Press.
Raumolin-Brunberg, H. y Nevalainen, T. (2007). Historical Sociolinguistics: The Corpus of Early English Correspondence. En J. C. Beal, K. P. Corrigan y H. L. Moisl (Eds.), Creating and Digitizing Language Corpora. Volume 2: Diachronic Databases (pp. 148-171). Palgrave Macmillan.
Rodríguez Puente, P. (2018). En busca de lo hablado en lo escrito en los corpus diacrónicos del español: una comparativa con los corpus anglosajones. E-Scripta Romanica, 5, 89-127. https://doi.org/10.18778/2392-0718.05.09.
Rojo, G. (2021). Introducción a la lingüística de corpus en español. Routledge. https://doi.org/10.4324/9781003119760.
Sánchez Marco, C., Fontana Méndez, J. M. y Domingo, J. (2012). Anotación automática de textos diacrónicos en español. En E. Montero Cartelle y C. Manzano Rovira (Coords.), Actas del VIII Congreso Internacional de Historia de la Lengua Española. Vol. 2 (pp. 1709-1720). Meubook.
Sinclair, J. (2004). Trust the text. Language, corpus and discourse. Routledge.
Stefanowitsch, A. (2020). Corpus linguistics: A guide to the methodology. Language Science Press. https://doi.org/10.5281/zenodo.3735821.
Torruella, J. y Kabatek, J. (2024). Portal de Corpus Históricos Iberorrománicos (versión 6.0). http://corhiber.org/.
Vaamonde, G. (2015). P. S. Post Scriptum. Dos corpus diacrónicos de escritura cotidiana. Procesamiento del Lenguaje Natural, 55, 57-64.
Vaamonde, G. (2018). La multidisciplinariedad en la creación de corpus históricos: El caso de Post Scriptum. Artnodes, 22, 118-127. https://doi.org/10.7238/a.v0i22.3238.
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial 4.0.