Design and Exploitation of a Historical Corpus of Speech-Related Texts for the Study of Classical and Modern Spanish

Authors

DOI:

https://doi.org/10.5944/rhd.vol.9.2024.39834

Keywords:

Corpus linguistics, Digital edition, TEITOK, History of Spanish, Early Modern Period

Abstract

This article presents Oralia Diacrónica del Español (ODE), a specialized historical corpus that has been designed to study the lexicon of everyday life and to reconstruct the orality and dialectology of Peninsular Spanish from the 16th century to the end of the 19th century. This dataset is made up of unpublished documents from three text types characterized by their communicative immediacy: inventories of goods, witnesses’ testimonies in criminal trials, and surgeons’ reports on the state of an injured or dead person. ODE includes the facsimile images of these manuscripts along with their transcriptions based on TEI-XML, and it also works as a searchable lemmatized and PoS tagged corpus. This paper explains how ODE is being built and provides several examples that show possibilities of exploiting this electronic resource.

 

Downloads

Download data is not yet available.

References

Allés-Torrent, S. (2015). Edición digital y algunas tecnologías aliadas. Ínsula: revista de letras y ciencias humanas, 822, 18-21.

Blas Arroyo, J. L (2012). Tras las huellas de la variación y el cambio lingüístico a través de textos de inmediatez comunicativa. Fundamentos de un proyecto de sociolingüística histórica. En F. J. de Cos Ruiz y M. Franco Figueroa (Coords.), Actas del IX Congreso Internacional de Historia de la Lengua Española. Volumen 2 (pp. 1743-1762). Iberoamericana/Vervuert.

Burnard, L. (2014). What is the Text Encoding Initiative? How to add intelligent markup to digital resources. OpenEdition Press. https://doi.org/10.4000/books.oep.426.

Calderón Campos, M. (2018). Las declaraciones de esencia del siglo XVIII: un tipo textual para el estudio de la terminología anatómica. Dynamis, 38(2), 427-452. https://dx.doi.org/10.4321/s0211-95362018000200007.

Calderón Campos, M. (2019a). La edición de corpus lingüísticos en la plataforma TEITOK. El caso de Oralia diacrónica del español (ODE). CHIMERA: Revista de Corpus de Lenguas Romances y Estudios Lingüísticos, 6, 21-36.

Calderón Campos, M. (2019b). La configuración de la variedad meridional en el reino de Granada. En E. Bustos Gisbert y J. P. Sánchez Méndez (Eds.), La configuración histórica de las normas del castellano (pp. 109-134). Tirant Humanidades.

Calderón Campos, M. y Vaamonde, G. (2020). Oralia Diacrónica del Español: un nuevo corpus de la Edad Moderna. Scriptum Digital, 9, 167-189. https://doi.org/10.5565/rev/scriptum.108.

Claridge, C. (2008). Historical corpora. In A. Lüdeling y M. Kytö (Eds.), Corpus Linguistics: An International Handbook (pp. 242-259). Walter de Gruyter.

Christ, O., Schulze, B. M., Hofmann, Anja y König, Esther (1999). The IMS corpus workbench: Corpus query processor (CQP): User’s manual. Technical report, IMS, University of Stuttgart. https://corpora.ficlit.unibo.it/TCORIS/cqpman.pdf.

Dollinger, S. (2004). ‘Philological computing vs. ‘philological outsourcing’ and the compilation of historical corpora: a Late Modern English test case. Vienna English Working Papers (VIEWS), 13(2), 3-23

Evert, S. y Hardie, A. (2011). Twenty-first century Corpus Workbench: Updating a query architecture for the new millennium. Proceedings of the Corpus Linguistics 2011 Conference. University of Birmingham. https://www.birmingham.ac.uk/documents/college-artslaw/corpus/conference-archives/2011/paper-153.pdf

Fradejas Rueda, J. M. (2009-2010). La codificación XML/TEI de textos medievales. Memorabilia, 12, 219-247.

García-Miguel, J. M. (2022). Lingüística de corpus: de los datos textuales a la teoría lingüística. Estudios de Lingüística del Español, 45, 11-42. https://raco.cat/index.php/Elies/article/view/403735.

González Sopeña, I. (2022). Documentación notarial extremeña del siglo XVII en Oralia Diacrónica del Español (ODE): el léxico de la vida cotidiana a través de inventarios de bienes pacenses. Romanica Olomucensia, 34(1), 13-30. https://doi.org/10.5507/ro.2022.002.

Gries, S. (2009). Quantitative Corpus Linguistics with R: A practical introduction. Routledge.

Gries, S. y Berez, A. L. (2017). Linguistic Annotation in/for Corpus Linguistics. En N. Ide y J. Pustejovsky (Eds.), Handbook of Linguistic Annotation (pp. 379-410). Springer. https://doi.org/10.1007/978-94-024-0881-2_15.

Honkapohja, A., Kaislaniemi, S. y Marttila, V. (2009). Digital Editions for Corpus Linguistics: Representing manuscript reality in electronic corpora. En A. H. Jucker, D. Schreier y M. Hundt (Eds.): Corpora: Pragmatics and Discourse (pp. 451-475). Rodopi.

Huber, M. (2007). The Old Bailey Proceedings, 1674-1834: evaluating and annotating a corpus of 18th and 19th century spoken English. En A. Meurman-Solin y A. Nurmi (Eds.). Annotating variation and change. Helsinki: VARIENG. https://varieng.helsinki.fi/series/volumes/01/huber/.

Hunston, S. (2002). Corpora in Applied Linguistics, Cambridge. Cambridge University Press.

Janssen, M. (2012). NeoTag: A POS Tagger for Grammatical Neologism Detection. En N. Calzolari et al. (Eds.), Proceedings of the 8th International Conference on Language Resources and Evaluation (pp. 2118-2124). ELRA. http://www.lrec-conf.org/proceedings/lrec2012/pdf/1098_Paper.pdf.

Janssen, M. (2014). TEITOK - a Tokenized TEI enviroment. http://www.teitok.org/index.php.

Janssen, M. (2016). TEITOK: Text-Faithful Annotated Corpora. En N. Calzolari et al. (Eds.), Proceedings of the 10th International Conference on Language Resources and Evaluation (pp. 4037-4043). ELRA. https://aclanthology.org/L16-1637.pdf.

Janssen, M. y Vaamonde, G. (2020). Da edición dixital á análise lingüística. A creación de corpus históricos na plataforma TEITOK. En R. Álvarez y E. González Seoane (Eds.), Calen barbas, falen cartas. A escrita en galego na Idade Moderna (pp. 271-292). Consello da Cultura Galega (Ensaio & Investigación). https://consellodacultura.gal/publicacion.php?id=4373.

Kennedy, G. (1998). An Introduction to Corpus Linguistics. Longman.

Koch, P. y Oesterreicher, W. (1990[2007]). Lengua hablada en la Romania: español, francés, italiano. Gredos. Versión española de Araceli López Serena a patir del original alemán de 1990: Gesprochene Sprache in der Romania: Französisch, Italienisch, Spanisch. Tübingen: Niemeyer.

Koester, A. (2022). Building small specialised corpora. En A. O'Keeffe y M. J. McCarthy (Eds.), The Routledge Handbook of Corpus Linguistics (pp. 48-61). Routledge. https://doi.org/10.4324/9780367076399-5.

Kytö, M. (2011). Corpora and historical linguistics. Revista Brasileira de Linguística Aplicada, 11(2), 417-457. https://doi.org/10.1590/S1984-63982011000200007.

Kytö, M. y Walker, T. (2006). Guide to A Corpus of English Dialogues 1560-1760. Acta Universitatis Upsaliensis.

Leech, G. y Wilson, A. (1996). EAGLES. Recommendations for the Morphosyntactic Annotation of Corpora. http://www.ilc.cnr.it/EAGLES96/annotate/annotate.html.

Marttila, V. (2014). Creating Digital Editions for Corpus Linguistics. The Case of Potage Dyvers, a Family of six Middle English recipe collections [Tesis doctoral]. Universidad de Helsinki. http://hdl.handle.net/10138/135589.

McEnery, T, Xiao, R. y Tono, Y. (2006). Corpus-based language studies: An advanced resource book. Routledge.

Meurman-Solin, A. (2001). Structured text corpora in the study of language variation and change. Literary and Linguistic Computing, 16(1), 5-27.

Meurman-Solin, A. y Tyrkkö, J. (2013). Introduction. En A. Meurman-Solin y J. Tyrkkö (Eds.), Principles and Practices for the Digital Editing and Annotation of Diachronic Data. VARIENG. https://varieng.helsinki.fi/series/volumes/14/introduction.html.

Morala, J. R. (2012). Léxico e inventarios de bienes en los Siglos de Oro. En G. Clavería Nadal, M. Freixas, M. Prat Sabater y J. Torruella (Eds.), Historia del léxico: perspectivas de investigación (pp. 199-218). Iberoamericana/Vervuert.

Morala, J. R. (2014). El CorLexIn, un corpus para el estudio del léxico histórico y dialectal del Siglo de Oro. Scriptum Digital, 3, 5-28. https://doi.org/10.5565/rev/scriptum.47 .

Náñez Fernández, E. (2006). El diminutivo. Historia y funciones en el español clásico moderno. UAM Ediciones.

Nieto Jiménez, L. y Alvar Ezquerra, M. (2007). Nuevo tesoro lexicográfico del español (s. XVI – 1726). Arco Libros.

NGLE = RAE / ASALE (2011): Nueva gramática de la lengua española. Fonética y fonología. Espasa.

ODE = Calderón Campos, M. y María Teresa García-Godoy (2010-): Oralia Diacrónica del Español (ODE). [enero de 2024]. http://corpora.ugr.es/ode.

Penny, R. (2001). Variation and change in Spanish. Cambridge University Press.

Raumolin-Brunberg, H. y Nevalainen, T. (2007). Historical Sociolinguistics: The Corpus of Early English Correspondence. En J. C. Beal, K. P. Corrigan y H. L. Moisl (Eds.), Creating and Digitizing Language Corpora. Volume 2: Diachronic Databases (pp. 148-171). Palgrave Macmillan.

Rodríguez Puente, P. (2018). En busca de lo hablado en lo escrito en los corpus diacrónicos del español: una comparativa con los corpus anglosajones. E-Scripta Romanica, 5, 89-127. https://doi.org/10.18778/2392-0718.05.09.

Rojo, G. (2021). Introducción a la lingüística de corpus en español. Routledge. https://doi.org/10.4324/9781003119760.

Sánchez Marco, C., Fontana Méndez, J. M. y Domingo, J. (2012). Anotación automática de textos diacrónicos en español. En E. Montero Cartelle y C. Manzano Rovira (Coords.), Actas del VIII Congreso Internacional de Historia de la Lengua Española. Vol. 2 (pp. 1709-1720). Meubook.

Sinclair, J. (2004). Trust the text. Language, corpus and discourse. Routledge.

Stefanowitsch, A. (2020). Corpus linguistics: A guide to the methodology. Language Science Press. https://doi.org/10.5281/zenodo.3735821.

Torruella, J. y Kabatek, J. (2024). Portal de Corpus Históricos Iberorrománicos (versión 6.0). http://corhiber.org/.

Vaamonde, G. (2015). P. S. Post Scriptum. Dos corpus diacrónicos de escritura cotidiana. Procesamiento del Lenguaje Natural, 55, 57-64.

Vaamonde, G. (2018). La multidisciplinariedad en la creación de corpus históricos: El caso de Post Scriptum. Artnodes, 22, 118-127. https://doi.org/10.7238/a.v0i22.3238.

TEI_XML

Published

2024-05-19

How to Cite

Vaamonde, G. (2024). Design and Exploitation of a Historical Corpus of Speech-Related Texts for the Study of Classical and Modern Spanish. Revista de Humanidades Digitales, 9, 41–70. https://doi.org/10.5944/rhd.vol.9.2024.39834

Issue

Section

Artículos Académicos