1. DEFINICIÓN DE LINGÜÍSTICA FORENSE Y PRINCIPALES ÁREAS DE ESTUDIO

La lingüística forense podría definirse como una rama de la lingüística aplicada que se centra en aquellos casos legales en los que el uso del lenguaje está implicado en mayor o menor medida (McMenamin, 2002; Coulthard et al., 2010; Perkins & Grant, 2012). La primera vez que se utilizó este término fue en la obra de Starvik titulada The Evans Statement: A Case for Forensic Linguistics (1968). En dicha investigación, el autor analizó los testimonios incriminatorios que supuestamente había proporcionado a la policía Timothy John Evans, el cual había sido acusado de asesinar a su hija y a su mujer en el año 1949. Un año después de ser acusado, Evans fue declarado culpable y condenado a muerte. No obstante, tras la ejecución de Evans, la policía averiguó que el autor de ambos asesinatos fue John Cristie, un individuo que vivía en el mismo edificio que la familia de Evans. Así pues, el análisis que realizó Starvik décadas después ofreció evidencias lingüísticas suficientes como para sugerir que la transcripción del testimonio de Evans podría haber sido manipulada, puesto que incluía una serie de expresiones que difícilmente podían ser atribuibles a una persona con la formación académica del acusado.

A pesar de que el término lingüística forense no fue utilizado hasta 1968, la aplicación de teorías y métodos de carácter lingüístico en asuntos de índole legal se remonta hasta hace miles de años, pues incluso los filósofos de la Antigua Grecia solían acusarse de plagio (Udina, 2017). De hecho, hay un número considerable momentos históricos en los que se han instaurado leyes que tenían un efecto directo sobre el uso del lenguaje, como es el caso del Pleading English Act en 1362, que propició que el inglés reemplazara al francés como la lengua oficial de los procesos legales en Inglaterra (Coulthard et al., 2010). Asimismo, la controversia relativa a la autoría de las obras teatrales tradicionalmente atribuidas a William Shakespeare, la cual constituye uno de los focos de estudio más relevantes en el campo de la lingüística forense en la actualidad, tiene su origen en el siglo XVIII, cuando el reverendo James Wilmot sugirió que Francis Bacon podría estar detrás de la elaboración de dichas obras (Olsson, 2004).

Coulthard (2010) explica que, a pesar de que tras la publicación de The Evans Statement: A Case for Forensic Linguistics en 1968 se sucedieron varias décadas en las que apenas hubo publicaciones en el ámbito de la lingüística forense, la disciplina experimentó un progreso exponencial a partir de la última década del siglo pasado. Actualmente, se trata de un campo con un reconocimiento cada vez mayor en el ámbito de las Humanidades que ya cuenta con su propia asociación, la International Association of Forensic Linguistics (IAFL). Asimismo, la revista The International Journal of Speech, Language and the Law está especializada en la publicación de artículos de divulgación científica dentro del marco de esta disciplina y la Universidad de Aston y la Universidad de Cardiff ofrecen un máster especializado en el estudio de la lingüística forense.

La investigación en el ámbito de la lingüística forense está dividida en tres áreas de estudio, las cuales presentaremos a continuación de forma sintética:

El análisis del lenguaje legal escrito. Los estudios en esta área pretenden deconstruir el lenguaje que caracteriza a los documentos legales con el propósito de poder adaptarlos para una mejor comprensión por parte del ciudadano promedio (Perkins y Grant, 2012). En los países de habla inglesa, este proceso de revisión y corrección de los textos de carácter legal para facilitar su entendimiento se conoce como Plain English Movement (Felsenfeld, 1981).

El análisis de las interacciones orales en contextos legales. La labor del lingüista forense en esta área abarca múltiples contextos comunicativos, tales como el momento en el que se le comunican a un sospechoso sus derechos al ser arrestado, las dinámicas que marcan una entrevista policial o aquellas interacciones dentro de un juzgado en el que un sospechoso o un testigo precisa de la atención de un intérprete (Coulthard, 2010; Kredens, 2016).

La labor del lingüista forense como testigo experto. Existe una plétora de contextos legales en los que se precisa de un análisis lingüístico para una correcta aplicación de la justicia. Esta área englobaría los estudios de atribución de autoría, los cuales explicaremos con mayor detenimiento en el próximo apartado, pero también otro tipo de conflictos legales como la apropiación indebida de ideas o conceptos entre marcas rivales o aquellos delitos que se perpetran a través del lenguaje, como es el caso de la difamación o las amenazas (Gibbons, 2011).

2. LOS ESTUDIOS DE ATRIBUCIÓN DE AUTORÍA

La atribución de autoría de un texto consiste en la identificación de su autor más probable a través del estudio de una serie de documentos cuya autoría es indubitada. Así pues, los estudios de atribución de autoría engloban la detección de plagio, el análisis de textos de carácter criminal, como es el caso de las amenazas terroristas, y el estudio de textos históricos, tales como obras literarias (Bozkurt et al., 2007).

Los estudios de esta disciplina están construidos sobre el concepto del idiolecto, que refiere a la variedad de la lengua inherente a cada individuo (Coulthard, 2004). Así pues, tal y como expone el autor previamente mencionado, cada hablante nativo presenta en su discurso oral y escrito una serie de elecciones lingüísticas que se mantienen constantes hasta cierto punto y, por ello, su identificación y clasificación pueden utilizarse para analizar un texto de autoría disputada entre varios candidatos o anónima.

De acuerdo con Coulthard et al. (2010), los estudios de atribución de autoría pueden dividirse entre aquellos en los que hay una lista de candidatos posibles y aquellos en los que la investigación no ofrece pistas suficientes como para reducir su foco a una serie de autores potenciales. En el caso de que no haya candidatos para la atribución, los autores explican que la labor del lingüista forense es encontrar rasgos idiolectales en el texto que revelen información sobre la posible procedencia de su autor, su edad, su género, su formación cultural u otras pistas que permitan trazar un perfil de dicho candidato. De acuerdo con Coulthard y Johnson (2007), un ejemplo de este tipo de investigación es el caso del Unabomber, un ciudadano de los Estados Unidos que envió cartas bomba a los trabajadores de aerolíneas y universidades entre 1978 y 1995. Con la promesa de que continuaría con dichas prácticas a no ser que accedieran a sus pretensiones, consiguió que el Washington Post publicase un manifiesto escrito por él de aproximadamente 35.000 palabras acerca de la sociedad industrial y su futuro. Unos meses después, un ciudadano se puso en contacto con el FBI y declaró que su hermano, con quien no había mantenido contacto desde hacía más de diez años, empleaba algunas expresiones altamente distintivas que aparecían en dicho manifiesto, como es el caso de cool-headed logician. El FBI localizó al hermano de dicho individuo y, tras su arresto, se le incautó un documento de unas 300 palabras que se encontraba en su vivienda, cuyo análisis lingüístico reveló una serie de coincidencias inequívocas con el manifiesto publicado en dicho periódico.

Otro ejemplo de estudio de atribución de autoría lo constituye el caso de Dulceliz Díaz, en el que se parte con una serie de posibles candidatos desde un inicio. Tal y como explica el antiguo agente del FBI, James R. Fitzgerald (2014), Dulceliz Díaz y su hija fueron halladas sin vida en sus domicilios de Pensilvania en 2007. Los miembros de la familia de las víctimas habían recibido un correo electrónico horas antes desde la cuenta de esta mujer, donde, supuestamente, anunciaba que iba a terminar con su vida. Fitzgerald expone que, en este tipo de casos, es necesario comparar la supuesta nota de suicidio con documentos indubitados de la víctima para comprobar si efectivamente es ella quien la ha redactado o si dicho texto ha podido ser escrito por alguien vinculado a la víctima para cubrir un asesinato. Así pues, el análisis del correo electrónico en cuestión mostraba una serie de inconsistencias idiolectales con otros que habían sido enviados por la víctima y, al mismo tiempo, una gran similitud con textos indubitados de Alberto Pérez, quien había mantenido una relación con Dulceliz y era el padre de su hija, lo que permitió, tras la declaración de Fitzgerald como testigo experto en el juicio, su encarcelamiento y posterior ejecución por doble homicidio.

En casos como el descrito anteriormente, el proceso de atribución de autoría de un texto suele realizarse, por lo tanto, mediante un análisis cuantitativo que permita establecer un modelo estadístico del idiolecto de cada uno de los posibles autores para discernir posteriormente con cuál de ellos tienen mayor similitud las características lingüísticas del texto disputado. Por ello, en la próxima sección del artículo analizaremos algunas de las herramientas computacionales que se utilizan actualmente en el ámbito de la lingüística forense para estudios de esta naturaleza y presentaremos el software ALTXA, el cual ha sido creado por el grupo investigador y será de acceso libre a partir del año 20221.

3. ANÁLISIS DE LAS PRINCIPALES HERRAMIENTAS COMPUTACIONALES PARA REALIZAR ESTUDIOS DE ATRIBUCIÓN DE AUTORÍA Y PRESENTACIÓN DEL SOFTWARE ALTXA

La irrupción de las nuevas tecnologías ha facilitado la creación de vías alternativas para el tratamiento de textos y, en consecuencia, los estudios de atribución de autoría han experimentado en las últimas décadas un crecimiento exponencial (Kinney, 2009). Entre estas herramientas computacionales, cabe destacar la presencia de programas informáticos como Voyant Tools y AntConc, cuya interfaz simplificada constituye su mayor virtud, ya que proporciona al usuario una experiencia de uso cómoda, pero que carecen de ciertas funcionalidades debido a su complejidad. Por ejemplo, Voyant Tools no está preparado para realizar un análisis de n-grams como el que presentaremos a continuación en este artículo, un Zeta test o un Principal Component Analysis, y aunque AntConc sí puede identificar n-grams, tampoco tiene entre sus funcionalidades la realización de un Zeta test y un Principal Component Analysis2.

Por otro lado, existen recursos informáticos cuya fortaleza radica en que ofrecen una amplia gama de funcionalidades dentro de los estudios de atribución de autoría, pero cuya interfaz y manejo pueden constituir un impedimento para aquellos usuarios que carecen de conocimientos informáticos avanzados, como es el caso del programa Sketch Engine o del lenguaje de programación R.

Así pues, con el objetivo de ofrecer a la comunidad académica un programa de análisis de textos que combinara un catálogo extenso de funcionalidades para la atribución de autoría de textos disputados o anónimos con una interfaz accesible para todo tipo de usuarios, decidimos crear el programa ALTXA con la asistencia del programador Carlos Antón. Esta herramienta, que ofreceremos a partir del año 2022 como software libre, permite el cálculo de la riqueza léxica y del número medio de palabras por frase de un texto, la obtención de la frecuencia relativa de cualquier palabra clave en una muestra, la identificación y cuantificación de n-grams en común entre dos muestras y la realización de un Zeta test y un Principal Component Analysis a través de una interfaz altamente intuitiva.

ALTXA está programado para analizar textos en castellano, inglés y francés, y basta con adjuntar una muestra (o varias, en función del método) en formato de texto plano (.txt), seleccionar el procedimiento que se desee realizar y pulsar el botón Execute para obtener los resultados de forma inmediata en otro documento del mismo tipo generado por el propio programa. Esto contrasta con la realización de tareas mediante otras herramientas como el lenguaje de programación R, donde incluso la obtención de datos relativamente accesibles, como es la riqueza léxica de un texto, puede llegar a ser costoso a nivel de tiempo y esfuerzo debido a los numerosos códigos de los que precisa para su funcionamiento.

El objetivo último tras la creación de un programa de estas características es, en primer lugar, facilitar la inclusión de la lingüística forense en contextos educativos, puesto que esta no forma parte del currículum docente de muchas universidades españolas debido no solo a una falta de personal especializado, sino también de herramientas habilitadas para dicho fin, y, en segundo lugar, para agilizar la labor del lingüista forense, que en muchos casos se ve obligado a profundizar por su cuenta en conocimientos de programación que escapan a su formación previa o a pedir la asistencia de profesionales de otras disciplinas para poder poner en práctica ciertos procedimientos lingüísticos.

Puesto que el programa no será de acceso público hasta el año 2022, este artículo no incluirá imágenes de su interfaz. No obstante, con el propósito de probar la efectividad de ALTXA y los métodos de atribución de autoría dentro del marco disciplinario de la lingüística forense, en la próxima sección analizaremos la autoría de un texto indubitado de William Shakespeare mediante un estudio de n-grams para comprobar si tanto, el método como la herramienta de trabajo, consiguen vincular el documento con su autor al compararlo simultáneamente con otro candidato de características similares. Asimismo, esta demostración práctica nos permitirá ejemplificar la manera de abordar la atribución de autoría de un texto literario por medio de un análisis puramente lingüístico.

4. DEMOSTRACIÓN PRÁCTICA: ATRIBUCIÓN DE AUTORÍA DE UN TEXTO INDUBITADO DE WILLIAM SHAKESPEARE

Una vía efectiva para comprobar la fiabilidad de los estudios de n-grams, que constituyen una metodología asentada dentro del marco de los estudios forenses de atribución de autoría, y del programa ALTXA, que incluye la realización de dicho tipo de estudio entre sus funcionalidades, es analizar la autoría de un texto indubitado relativamente corto como si de una muestra dudosa se tratase, es decir, comparándolo con un corpus de referencia de su auténtico autor y con el de otro candidato. Así pues, si el estudio muestra una mayor similitud entre dicho texto y el corpus de referencia de su autor, podríamos considerar que tanto el procedimiento como el programa con el que se ha realizado son efectivos. Para dicho fin, analizaremos la autoría de un fragmento que pertenece a una obra que sabemos con certeza que es de William Shakespeare, como es el caso del segundo acto de Richard III (1592-1594)3. Para analizar la autoría de este texto, crearemos un corpus de referencia de William Shakespeare, así como de otro candidato con el que establecer una comparación. En este caso, hemos decidido incluir en el análisis al también dramaturgo isabelino Christopher Marlowe.

Hemos extraído el texto que vamos a tratar como si fuera de autoría disputada, es decir, el segundo acto de Richard III, de la página web de Project Gutenberg4, donde se asegura que han intentado preservar en sus ediciones electrónicas de obras isabelinas la selección de palabras que aparecía en los manuscritos originales. Posteriormente, hemos limpiado el texto para optimizar el análisis mediante la eliminación de todas aquellas palabras y elementos lingüísticos que no constituyen un diálogo de los personajes de la obra, como es el caso del título de las escenas o las indicaciones para los actores. Cabe destacar que, tras la realización de dicho procedimiento, el número de palabras del texto resultante es de 3.320.

Una vez habíamos extraído y limpiado el texto cuya autoría será analizada, hemos compilado un corpus de referencia de William Shakespeare y de Christopher Marlowe para su posterior comparación con el segundo acto de Richard III. Como obra de referencia shakespeareana, hemos escogido Richard II (1595-1596)5, ya que fue elaborado en un período similar al del texto dudoso. Siguiendo el mismo criterio, hemos escogido Edward II (1592)6 como obra de referencia del idiolecto de Marlowe. Esta obra posee una extensión similar a la de Richard II, lo cual será de vital importancia para el estudio de n-grams, como explicaremos a continuación. Finalmente, cabe destacar que las dos obras que utilizaremos como modelos idiolectales de los candidatos han sido extraídas de la misma editorial que el texto dudoso y limpiadas bajo los mismos criterios.

De este modo, hemos obtenido una muestra cuya autoría vamos a analizar como si de un texto disputado se tratase, es decir, el segundo acto de Richard III; una segunda muestra que vamos a utilizar como el modelo idiolectal de Shakespeare, que es Richard II; y una tercera muestra que va a representar el idiolecto de Marlowe, que es Edward II.

El método por el cual vamos a realizar este análisis de atribución de autoría es un estudio de n-grams. De acuerdo con Grieve et al. (2018), los n-grams podrían definirse como combinaciones de uno o más caracteres y/o palabras que tienen lugar dentro de una misma oración. Así pues, si identificamos y cuantificamos las combinaciones de caracteres o palabras que comparte un texto dudoso con una serie de corpus de referencia, podremos determinar con cuál de ellos presenta un índice de similitud lingüística mayor. Para la realización de este estudio, nos vamos a centrar exclusivamente en los word n-grams, es decir, en las combinaciones de palabras dentro de una misma oración que comparte el texto supuestamente disputado con los dos corpus de referencia. Así pues, si el segundo acto de Richard III comparte más n-grams con el corpus shakespeareano que con el de Marlowe, podríamos afirmar que el análisis ha sido exitoso.

Antes de mostrar los resultados, es importante mencionar, por un lado, que el análisis se ha llevado a cabo con el software ALTXA y, por otro lado, que el tamaño de los dos corpus de referencia tras su limpieza es similar (Richard II contiene 21.882 palabras, mientras que Edward II presenta 20.467), lo cual permite que ninguno de los dos candidatos obtenga una ventaja estadística a la hora de compartir un número mayor de n-grams con el texto disputado en cuestión. Así pues, el análisis realizado por ALTXA demuestra que el segundo acto de Richard II comparte los siguientes n-grams de cada tipo con los dos corpus de referencia:

Tabla 1. Estudio de n-grams.

Tipo de n-grams

N-grams en común entre el segundo acto de Richard III y el corpus de referencia de Shakespeare

N-grams en común entre el segundo acto de Richard III y el corpus de referencia de Marlowe

5-grams

3

0

4-grams

20

9

3-grams

114

100

2-grams

729

658

1-grams

679

596

Tal y como podemos observar en la Tabla 1, el segundo acto de Richard III posee más 5- grams, 4-grams, 3-grams, 2-grams y 1-grams en común con Richard II, la otra muestra escrita por Shakespeare, que con Edward II, la muestra escrita por Marlowe. En primer lugar, el hecho de que el segundo acto de Richard III posea tres 5-grams en común con el corpus shakespeareano refleja la alta semejanza existente entre ambos textos, puesto que no es frecuente encontrar combinaciones en común de dicha longitud entre dos muestras. Si observamos los 4-grams y 3-grams en común, vemos una diferencia de 11 y 14 puntos respectivamente entre aquellos que la muestra dudosa comparte con el corpus de referencia de Shakespeare y los que tiene en común con el de Marlowe.

Finalmente, el número de 2-grams y 1-grams que el segundo acto de Richard III comparte con el corpus de Shakespeare es considerablemente superior a aquellos que tiene en común con el corpus de Marlowe. Estas diferencias son de 71 puntos en el caso de los 2-grams y de 83 en el caso de los 1-grams. Cabe destacar que el software ALTXA también ofrece una lista de todos los n- grams que el texto disputado comparte con los corpus de referencia, en caso de que el investigador desee examinarlos desde un punto de vista cualitativo. Así pues, podríamos decir, por ejemplo, que las combinaciones de cinco palabras que el segundo acto de Richard III comparte con la obra Richard II son I will go with you, my soul is full of and of you my noble cousin.

En definitiva, el estudio de n-grams realizado por ALTXA relaciona con claridad un texto relativamente corto con un corpus de referencia escrito por el mismo autor al ser comparado entre dicho corpus y otro compuesto por una muestra de un autor distinto. Por consiguiente, podríamos afirmar que esta demostración práctica ha probado la efectividad de los estudios de n-grams como procedimiento metodológico para atribuir la autoría de un texto disputado o anónimo en el ámbito de la lingüística forense por medio del programa informático ALTXA.

REFERENCIAS BIBLIOGRÁFICAS

Bozkurt, I.N., Baghoglu, O., & Uyar, E. (2007). Authorship Attribution. Performance of Various Features and Classification Methods. Proceedings of the 22nd International Symposium on Computer and Information Sciences. IEE. https://ieeexplore.ieee.org/abstract/ document/4456854/citations#citations

Coulthard, M. (2004). Author Identification, Idiolect and Linguistic Uniqueness. Applied Linguistics, 25(4), 431-447.

Coulthard, M. (2010). Forensic Linguistics: The Application of Language Description in Legal Contexts. Langage et société, 132(2), 15-33.

Coulthard, M., & Johnson, A. (2007). An Introduction to Forensic Linguistics: Language in Evidence. Routledge.

Coulthard, M., Grant, T., & Kredens, K. (2010). Forensic Linguistics. En R. Wodak, B. Johnstone & P. Kerswill (Eds.), Handbook of Sociolinguistics (pp. 529-544). SAGE Publications.

Craig, H., & Kinney, A. F. (2009). Methods. En H. Craig & A. F. Kinney (Eds.), Shakespeare, Computers and the Mystery of Authorship (pp. 15-39). Cambridge University Press.

Felsenfeld, C. (1981). The Plain English Movement in the United States. Canadian Business Law Jornal, 6, 408-421.

Fitzgerald, J. R. (2014). Atribución de autoría y supuestas notas de suicidio: Análisis lingüístico forense y su papel en los tribunales penales estadounidenses en dos crímenes violentos ocurridos en 2007. En E. Garayzábal, M. Jiménez & M. Reigosa (Eds.), Lingüística forense: La lingüística en el ámbito legal y policial (pp. 49-77). Euphonia Ediciones.

Gibbons, J. (2011). Towards a Framework for Communication Evidence. The International Journal of Speech, Language and the Law, 18(2), 233-260.

Grieve, J., Clarke, I., Chiang, E., Gideon, H., Heini, A., Nini, A., & Waibel, E. (2018). Attributing the Bixby Letter Using N-gram Tracing. Digital Scholarship in the Humanities, 34(3), 493-512.

Kinney, A. F. (2009). Authoring Arden of Faversham. En H. Craig & A. F. Kinney (Eds.), Shakespeare, Computers and the Mystery of Authorship (pp. 78-99). Cambridge University Press.

Kredens, K. (2016). Conflict or Convergence? Interpreters’ and Police Officers’ Perceptions of the Role of the Public Service Interpreter. Language and Law, 3(2), 65-77.

McMenamin, G. (2002). Advances in Forensic Stylistics. CRC Press.

Olsson, J. (2004). Forensic Linguistics: An Introduction to Language, Crime and the Law. Continuum International Publishing Group.

Perkins, R., & Grant, T. (2012). Forensic Linguistics. En J. A. Siegel & P. J. Saukko (Eds.), Encyclopedia of Forensic Sciences, Second Edition (pp.174-177). Elsevier.

Starvik, J. (1968). The Evans Statement: A Case for Forensic Linguistics. Elanders boktryckeri aktiebolag.

Udina, N. (2017). Forensic Linguistics Implications for Legal Education: Creating the e-textbook on Language and Law. Procedia: Social and Behavioral Sciences, 237, 1337-1340.


[1] Carlos Antón, programador informático, y Juan Antonio Latorre, lingüista.
[2] Véase Craig y Kinney (2009) para una explicación detallada de ambos procedimientos.
[3]Fecha extraída de la página web de la Royal Shakespeare Company, accesible desde: https:// www.rsc.org.uk/shakespeares-plays/timeline.
[4] Accesible desde: https://www.gutenberg.org.
[5] Fecha extraída de la página web de la Royal Shakespeare Company, accesible desde: https:// www.rsc.org.uk/shakespeares-plays/timeline.
[6] Fecha extraída de la página web de The Marlowe Society, accesible desde: http://www.marlowe-society.org/christopher-marlowe/works.