Utilizamos cookies propias y de terceros para mejorar nuestros servicios y facilitarte el uso de la web mediante el análisis de tus preferencias de navegación. También compartimos la información sobre el tráfico por nuestra web a los medios sociales y de publicidad con los que colaboramos. Si continúas navegando, consideramos que aceptas nuestra Política de cookies .

22 de Diciembre de 2010
LingÜÍstica

Modelos matemáticos del lenguaje y la cultura

Una base de datos con 500.000 millones de palabras extraídas de los libros digitalizados por Google Books sirve para hacer estadística sobre el uso y evolución del lenguaje.

Al igual que los seres vivos, las lenguas también evolucionan: aparecen palabras nuevas, otras se extinguen y la gramática va cambiando poco a poco. ¿Es posible analizar con precisión cómo se transforma el lenguaje? ¿Podrían aplicarse métodos de estadística y de biología evolutiva para estudiar sus cambios?

Jean-Baptiste Michel y Erez Lieberman Aiden, matemáticos y doctores en biología de la Universidad de Harvard, han encontrado una herramienta que quizá les permita responder cuantitativamente a estas preguntas: Google Books, el polémico proyecto de la multinacional para digitalizar todos los libros publicados desde que Gutenberg fabricase la primera imprenta de tipos móviles en el siglo XV.

Junto con otros colaboradores, los autores recopilaron en una base de datos todas las palabras contenidas en unos 5 millones de libros digitalizados por Google Books. El texto acumulado asciende a un 4% de todos los libros publicados a lo largo de la historia y suma unos 500.000 millones de palabras en 7 idomas: inglés (361.000 millones de palabras), francés (45.000 millones), español (45.000 millones), alemán (37.000 millones), ruso (35.000 millones), chino (13.000 millones) y hebreo (2000 millones).

Para evitar problemas con los derechos de autor, los investigadores agruparon todo el texto en una única base de datos que no permite reconstruir las obras, pero sí hacer estadística fiable sobre la frecuencia de uso de las palabras. En partícular, resulta posible extraer la frecuencia relativa con la que, entre los años 1800 y 2000, han aparecido publicadas cadenas de hasta 5 palabras. Por ejemplo: ¿qué porcentaje de veces, relativo a todas las palabras publicadas ese año, apareció la palabra "Cuba" en las obras en español aparecidas en 1898? ¿Y cómo evolucionó la frecuencia relativa de empleo de la palabra desde entonces hasta nuestros días? El siguiente gráfico nos da la respuesta:

 

 

  • Frecuencia de aparición de la palabra "Cuba" en las obras publicadas en lengua castellana entre 1800 y 2000. El eje de ordenadas indica el porcentaje de menciones respectivas sobre el total de vocablos registrados cada año. Los dos máximos principales coinciden en el tiempo con la independencia y la revolución cubanas.


En su artículo, publicado la semana pasada en la edición online de la revista Science, los autores investigan varios aspectos relacionados con la frecuencia de uso de ciertos términos o cadenas de términos. Por ejemplo, concluyen que casi de la mitad de las palabras registradas en inglés (tras eliminar cadenas alfanuméricas, erratas o extranjerismos) no se hallan recogidas en ningún diccionario. También estudian algunos aspectos referentes a la evolución de la gramática, como el proceso de desaparición de los verbos irregulares, un tema que ya les mereció un artículo en Nature en 2007. Por ejemplo, es fácil ver cómo, desde el punto de vista léxico, algunas palabras han sido reemplazadas por otras a lo largo del tiempo:

 

 

  • Evolución entre 1800 y 2000 de la frecuencia de uso de las palabras "obscuro" y "oscuro" en la literatura en español incluida en la base de datos. La suma de ambas se mantiene aproximadamente constante, pero se aprecia cómo un vocablo reemplaza al otro.


Al margen de los aspectos puramente lingüísticos, los autores analizan otros factores que interpretan como relacionados con la memoria colectiva o con las tendencias culturales. Por ejemplo, razonan que el número de menciones a un año ("1982") probablemente pueda interpretarse como reflejo del interés colectivo por lo que sucedió en ese año. Como cabría esperar, la gráfica del uso de "1982" exhibe un pico en torno a 1982. Pero más interesante es preguntarse cómo evoluciona con el paso del tiempo el interés por un año concreto. El siguiente gráfico lo ilustra muy bien:

 

 

  • Evolución entre 1800 y 2000 de la frecuencia con que se han registrado menciones escritas a diferentes años.


Hay una tendencia muy clara: 1) La altura de los picos aumenta con el tiempo. 2) Con relación a la altura del pico, la curva decae cada vez más deprisa. Al respecto, los autores concluyen que "existe un aumento de interés por el momento presente", pero también que "olvidamos nuestro pasado cada vez más rápido".

Otras inferencias curiosas pueden extraerse a partir de las menciones a personajes o fenómenos concretos, que se corresponderían con el auge y declive de su fama. El mismo procedimiento también permite identificar episodios de censura histórica.

Lieberman Aiden y Michel ya se habían ocupado de estos temas en el pasado. En 2007 publicaron un artículo en Nature en el que analizaban la frecuencia con la que, en inglés, los verbos irregulares tienden a convertirse en regulares. Su conclusión fue que la "vida media" de un verbo irregular es proporcional a la raíz cuadrada de su frecuencia de uso: un verbo que se emplea 100 veces menos que otro se "regulariza" 10 veces más rápido.

Los autores interpretan su estudio como un primer paso en una disciplina que, en analogía con la genómica, bautizan como "culturómica": el estudio estadístico y la modelización matemática de fenómenos lingüísticos y culturales. Quizá pueda sonar algo pretencioso, al menos por el momento (por ejemplo, no sabemos cuán representativa es la muestra del 4% incluida en la base de datos), pero puede que la idea sí represente un primer paso hacia la obtención de modelos evolutivos del lenguaje.

En cualquier caso, la iniciativa y la sola posibilidad de analizar semejantes cantidades de datos no dejan de sorprender. Al igual que hace unos días reseñábamos otro trabajo que relacionaba las fluctuaciones bursátiles con las búsquedas de ciertos términos en Google, también en este caso se trata de una investigación que solo la gran cantidad de datos almacenados por el gigante informático ha hecho posible. Parece que las herramientas del buscador sirven para mucho más que para resolver las necesidades momentáneas de sus usuarios.



La base de datos es de acceso libre. Cualquiera puede acceder y experimentar con ella a través de
www.culturomics.orgMás información en Scienceartículo de los mismos autores sobre la evolución de los verbos irregulares en Nature.

—IyC

 

Los boletines de Investigación y Ciencia

Elige qué contenidos quieres recibir.