Utilizamos cookies propias y de terceros para mejorar nuestros servicios y facilitarte el uso de la web mediante el análisis de tus preferencias de navegación. También compartimos la información sobre el tráfico por nuestra web a los medios sociales y de publicidad con los que colaboramos. Si continúas navegando, consideramos que aceptas nuestra Política de cookies .

18 de Febrero de 2013
LINGÜÍSTICA COMPUTACIONAL

Reconstrucción automatizada de lenguas extintas

Un modelo probabilístico permite poner a prueba las leyes que rigen el cambio lingüístico.

Árbol filogenético de las lenguas austronesias analizadas por los investigadores. [De «Automated reconstruction of ancient languages using probabilistic models of sound change». A. Bouchard-Côté et al. en PNAS, 11 de febrero de 2013.]

¿Puede reconstruirse el vocabulario de una lengua muerta de la que no existen registros escritos? Tradicionalmente, los lingüistas han venido afrontando este problema de forma manual, comparando grupos de palabras en varios idiomas de una misma familia y estableciendo su origen más probable a partir de las reglas que se cree que gobiernan la evolución de los fonemas. Sin embargo, esta manera de proceder permite resultados tanto más fiables cuanto mayor es el número de lenguas que se comparan, lo cual conlleva una cantidad considerable de tiempo y esfuerzo.

Ahora, un grupo de expertos de la Universidad de Columbia Británica y la Universidad de California en Berkeley ha propuesto un método para llevar a cabo dicha tarea de forma automatizada. Como caso de estudio, los autores han aplicado su modelo a un corpus de más de 140.000 vocablos en 637 lenguas austronesias. A partir de esos datos, el código informático calculó la protopalabra más probable asociada a cada significado. En más del 85 por ciento de los casos, la reconstrucción informática coincidía con las reconstrucciones manuales realizadas hasta la fecha o, como mucho, se diferenciaba de ellas en solo un fonema. Los resultados aparecieron publicados hace unos días en la revista PNAS.

El código propuesto por los autores utiliza métodos probabilísticos para determinar qué cambios experimentan los fonemas que componen una palabra. Al igual que otros trabajos en lingüística computacional, se inspira en los códigos informáticos que emplean los biólogos para analizar la evolución de las secuencias genéticas. Según los investigadores, los pocos intentos previos que se habían realizado hasta ahora para reconstruir de forma automática lenguas pasadas eran de alcance limitado, ya que dichos métodos no modelizaban los cambios fonológicos mediante leyes probabilísticas, sino deterministas, lo cual exigía mucha más potencia de cálculo.

El modelo de Bouchard-Côté y sus colaboradores parte de la hipótesis simplificada de que todas las palabras evolucionan poco a poco a lo largo de las ramas de un árbol filogenético, por lo que no contempla otros mecanismos de cambio conocidos, como el préstamo lingüístico. Tampoco hace uso de otras herramientas que los lingüistas sí utilizan en este tipo de reconstrucciones, como el análisis morfológico. Sin embargo, dada la elevada tasa de aciertos (definidos a partir del acuerdo entre los resultados del código y las reconstrucciones manuales), los investigadores sostienen que su modelo podría resultar muy útil a la hora de poner a prueba las diferentes teorías sobre el cambio lingüístico. En particular, las reconstrucciones austronesias obtenidas por los autores parecen apoyar de manera contundente la hipótesis de la «carga funcional», una teoría propuesta a mediados del siglo pasado, según la cual los sonidos más útiles a la hora de distinguir entre palabras serían los menos proclives a sufrir alteraciones.

Más información en PNAS.

—IyC

Los boletines de Investigación y Ciencia

Elige qué contenidos quieres recibir.