La inteligencia artificial en las Humanidades Digitales: dos experiencias con corpus digitales

Autores/as

DOI:

https://doi.org/10.5944/rhd.vol.7.2022.30928

Palabras clave:

inteligencia artificial, Humanidades Digitales, procesamiento del lenguaje natural, aplicaciones web, análisis de datos

Resumen

Este artículo se centra en el análisis de dos investigaciones de diverso signo guiadas por la inteligencia artificial dentro del campo de las HD. El primero es una investigación muy conocida y exitosa de dos lingüistas que resuelven un caso de atribución de autoría a través de la construcción de un corpus digital de 150 obras de 40 novelistas italianos. El segundo es la investigación llevada a cabo en el corpus digital DIMH (El Dibujante Ingeniero al servicio de la Monarquía Hispánica. Siglos XVI-XVIII), una evolución de la Colección de mapas, planos y dibujos del Archivo General de Simancas (siglos XVI-XVIII), cuyo objetivo fue desarrollar herramientas de soporte a tareas de anotación semántica, búsqueda de información, extracción de relaciones ocultas en los textos y visualización de los resultados para facilitar la investigación de los historiadores. A través de estos dos ejemplos, este artículo busca mostrar los métodos, procesos y posibilidades de éxito en problemas complejos de investigación en Humanidades resueltos con técnicas de procesamiento del lenguaje natural (PLN) y análisis de datos.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Ana Garcia Serrano, ETSI Informática - UNED

Ana García Serrano (http://nlp.uned.es/~agarcia) is a university professor and holds a PhD in Computer Science (UPM). The results of her theoretical-practical research have been published in both national and international forums (https://scholar.google.es/citations?hl=es&user=Y7G5f8MAAAAJ&view_op=list_works&sortby=pubdate). 

Key words: Automatic processing of natural language, information extraction and retrieval, multilingual or multimedia information access; digital humanities; access to information by collectives with special needs.

Citas

Allen, J. F. (1983). Maintaining Knowledge about Temporal Intervals. Communications of the ACM, 26(11), 832-843. https://doi.org/10.1145/182.358434

Bizer, C., Lehmann, J., Kobilarov, G., Auer, S., Becker, C., Cyganiak, R., & Hellmann, S. (2009). DBpedia - A Crystallization Point for the Web of Data. Journal of Web Semantics, 7(3), 154-165. https://doi.org/10.1016/j.websem.2009.07.002.

Castellanos González, A., Cigarrán, J., & García-Serrano, A. (2012). Using IR Techniques for Topic-based Sentiment Analysis through Divergence Models. Workshop on Sentiment Analysis at SEPLN.

Castellanos González, A., Cigarrán, J., & García-Serrano, A. (2017a). Formal Concept Analysis for Topic Detection: A Clustering Quality Experimental Analysis. Information Systems. 66,24-42. https://doi.org/10.1016/j.is.2017.01.008.

Castellanos González, Á., & García Serrano, A. (2017b). Representación y organización de documentos digitales: Detalles y práctica sobre la ontología DIMH. Revista de Humanidades Digitales, 1, 314- 344. https://doi.org/10.5944/rhd.vol.1.2017.17155.

Cebral Loureda, M. (2020). Voluntad y deseo en la filosofía moderna: Un acercamiento computacional. Revista de Humanidades Digitales, 5, 42-65. https://doi.org/10.5944/rhd.vol.5.2020.27495

Cigarrán, J. M. (2008). Agrupación de resultados de búsqueda mediante análisis formal de conceptos. [Ph.D. thesis]. UNED. http://e-spacio.uned.es/fez/view/tesisuned:IngInf-Jcigarran.

del Rio Riande, G. (2014). ¿De qué hablamos cuando hablamos de Humanidades Digitales?. En: Humanidades Digitales: Culturas, Tecnologías, Saberes. Facultad de Filosofía y Letras de la Universidad de Buenos Aires. https://www.aacademica.org/gimena.delrio.riande/90.pdf

Espino, F. (2020). Big data, criticometría y el estudio de las literaturas nacionales en la bibliografía crítica: El caso excepcional de la literatura cubana. Revista de Humanidades Digitales, 5, 66-85. https://doi.org/10.5944/rhd.vol.5.2020.27625

Filter, J. (2015). Interactive Visualization of Large Concept Lattices. [Bachelor Thesis]. Supervisors: Nürnberger, A., & García-Serrano, A. Data and Knowledge Engineering Group. Faculty of Computer Science. OVG Univ. of Magdeburg.

García-Serrano, A., Castellanos González, A., & Cigarrán, J. (2015). De la preservación digital al acceso semántico de documentos históricos. En II Congreso de Humanidades Digitales Hispánicas - Innovación, globalización e impacto. Madrid. https://humanidadesdigitaleshispanicas.es/wp-content/uploads/2020/02/Humanidades-Digitales-Hisp%C3%A1nicas.-Innovaci%C3%B3n-Globalizaci%C3%B3n-e-Impacto.pdf

García Serrano, A. M., & Castellanos González, Á. (2016). Conceptualización, acceso y visibilidad de la información en el proyecto DIMH. En A. Cámara Muñoz, El dibujante ingeniero al servicio de la monarquía hispánica: Siglos XVI-XVIII (pp. 379-400). Fundación Juanelo Turriano. http://www.juaneloturriano.com/coleccion-digital/lecciones-juanelo-turriano-de-historia-de-la-ingenieria

García-Serrano, A., & Menta Garuz, A. (2021). Orientaciones y evaluación de técnicas en Humanidades Digitales: de la estadística al deep-learning. HDH 2021-Scire Vías. Humanidades Digitales y Conocimiento. 4-8 octubre. España.

Grabmeier, J., & Rudolph, A. (2004). Techniques of Cluster Algorithms in Data Mining. Data Mining and Knowledge Discovery, 6, 303-360.

Herranz A., Benjamins, R., Torrubia, A., & Larrañaga, P. (2019). De qué serán capaces la inteligencia artificial y el machine learning en 10 años: los mayores expertos nos responden. Xataka.

Inteligencia artificial. (15 de noviembre de 2021). En Wikipedia. https://es.wikipedia.org/w/index.php?title=Inteligencia_artificial&oldid=139728139

Kestemont, M., Manjavacas, E., Markov, L., Bevendorff, J., Wiegmann, M., Stamatatos, E., Potthast, M., & Stein B. (2020). Overview of the Cross-Domain Authorship Verification Task at PAN 2020. Working notes CLEF 2020 - Conf. Labs Eval. Forum, pp. 22-25. http://ceur-ws.org/Vol-2696

Kunenets, N. (2016). The Technology of Hierarchical Agglomerative Cluster Analysis in Library Research. Econtechmod. An International Quarterly Journal, 5(1), 35-41.

Martínez Cantón, C. I. (2017). Poetriae y el Arte de la poesía castellana: bases para la creación de una colección digital de tratados poéticos castellanos. Magnificat: cultura i literatura medievals, 4, 21-42.

McGillivray, B., Beatrice, A., Ames, S., Armstrong, G., Beavan, D., & Ciula, A. (2020a). The Challenges and Prospects of the Intersection of Humanities and Data Science: A White Paper from the Alan Turing Institute. Figshare. https://doi.org/10.6084/m9.figshare.12732164.v5

McGillivray, B., Poibeau, T., & Ruiz, P. (2020b). Digital Humanities and Natural Language Processing: “Je t'aime... Moi non plus". Digital Humanities Quarterly 14, 2. https://hal.archives-ouvertes.fr/hal-02970302

Meeks, E., & Weingart S. (2012). The Digital Humanities Contribution to Topic Modeling. Journal of Digital Humanities, 2(1), 1-6.

Merás, A., García-Serrano, A., & Castellanos, A. (2017). Extracción de información temporal de la DBpedia: propuesta de integración en un corpus semiestructurado. Procesamiento del Lenguaje Natural, 58, 117-124.

Microsoft España (2019). Inteligencia artificial en España: Cómo 277 organizaciones se benefician de la IA. https://info.microsoft.com/WE-DIGTRNS-CNTNT-FY19-09Sep-27-ArtificialIntelligenceinSpain-MGC0003165_01Registration-ForminBody.html?wt.mc_id=AID732606_QSG_BLOG_278541

Microsoft España (2020). IA en el sector público: Perspectivas europeas para 2020 y años siguientes (España). https://info.microsoft.com/rs/157-GQE-382/images/ES-CNTNT-eBook-SRGCM3981-v2.pdf

Murtagh F. (2017). Big Data Scaling through Metric Mapping: Exploiting the Remarkable Simplicity of Very High Dimensional Spaces Using Correspondence Analysis. En F. Palumbo, A. Montanari & M. Vichi (Eds.), Data Science. Studies in Classification, Data Analysis, and Knowledge Organization (pp. 295–306). Springer. https://doi.org/10.1007/978-3-319-55723-6_23

Piotrowski, M. (2012). Natural Language Processing for Historical Texts. Synthesis Lectures on Human Language Technologies. Morgan and Claypool Publishers. https://doi.org/10.2200/S00436ED1V01Y201207HLT017

Pokhriyal, N., Tayal, K., Nwogu, I., & Govindaraju, V. (2017). Cognitive-Biometric Recognition from Language Usage: A Feasibility Study. IEEE Transactions on Information Forensics and Security, 12(1), 134-143.

Portaltic (14 de enero de 2021) La adopción de Inteligencia Artificial no aumentó masivamente en 2020, según un informe de McKinsey. https://www.europapress.es/portaltic/empresas/noticia-adopcion-inteligencia-artificial-no-aumento-masivamente-2020-informe-mckinsey-20210114145739.html

Rettinger, A., Zhang, L., Tran, T., & Chen, W. (2015). Time-Aware Entity Search in DBpedia. The Semantic Web: ESWC 2015 Satellite Events.

Rojas Castro, A. (2017). La edición crítica digital y la codificación TEI. Preliminares para una nueva edición de las Soledades de Luis de Góngora. Revista De Humanidades Digitales, 1, 4-19. https://doi.org/10.5944/rhd.vol.1.2017.16379

Sanz Cabrerizo, A. (2021). Para unas lecturas remediadas: análisis cuantitativo y cualitativo de textos. Revista de Humanidades Digitales, 6, 122-128. https://doi.org/10.5944/rhd.vol.6.2021.32297

Schmidt, B. M. (2012). Words Alone: Dismantling Topic Models in the Humanities, Journal of Digital Humanities, 2(1), 49-66.

SEPLN (2020). Informe SEPLN 2020: Hacia una estrategia para la IA centrada en las tecnologías del lenguaje en España. http://www.sepln.org/actualidad/noticias/publicacion-de-la-estrategia-de-procesamiento-del-lenguaje-natural

Spence, P. (2014). La investigación humanística en la era digital: mundo académico y nuevos públicos. Janus Digital, Annex 2, 117-131.

Tuzzi, A., & Cortelazzo, M. (2018). What is Elena Ferrante? A Comparative Analysis of a Secretive Bestselling Italian Writer. Digital Scholarship in the Humanities, 33(3), 685-702.

Ueda, H., Sanchez-Prieto, P., & Moreno Sandoval, A. (2020). Lematización y visualización cartográfica del corpus CODEA. Estudios de lingüística de español, 42, 245-261.

Vázquez, A., & García-Serrano, A. (2015.) Anotación y representación temporal de tweets multilingües. Procesamiento del Lenguaje Natural, 54, 53-60.

Vicente-Díez M.T., Moreno-Schneider, J., & Martínez P. (2010). Temporal Information Needs in ResPubliQA: an Attempt to Improve Accuracy. The UC3M Participation CLEF 2010, LABs and Workshops. https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.174.3558&rep=rep1&type=pdf

Vivó Capdevila, E.P. (2021). Modelizando una literatura en el olvido: LDA aplicado a corpus españoles sobre Guinea Ecuatorial y. Filipinas. HDH 2021-Scire Vías. Humanidades Digitales y Conocimiento. 4-8 octubre. España.

Webis Group (2021). PAN is a Series of Scientific Events and Shared Tasks on Digital Text Forensics and Stylometry. https://pan.webis.de/

Wille, R. (1992). Concept Lattices and Conceptual Knowledge Systems. Computers & mathematics with applications, 23(6), 493-515.

Yang, T. I., Torget, A. J., & Mihalcea, R. (2011). Topic Modeling on Historical Newspapers. Proc. 5th ACL-HLT Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities, 96-104. ACL.

Descargas

Publicado

2022-06-10

Cómo citar

Garcia Serrano, A., & Menta Garuz, A. (2022). La inteligencia artificial en las Humanidades Digitales: dos experiencias con corpus digitales. Revista De Humanidades Digitales, 7, 19–39. https://doi.org/10.5944/rhd.vol.7.2022.30928

Número

Sección

Artículos Académicos