Utilizamos cookies propias y de terceros para mejorar nuestros servicios y facilitarte el uso de la web mediante el análisis de tus preferencias de navegación. También compartimos la información sobre el tráfico por nuestra web a los medios sociales y de publicidad con los que colaboramos. Si continúas navegando, consideramos que aceptas nuestra Política de cookies .

1 de Julio de 2016
Sistemas complejos

Las leyes matemáticas emergentes en el uso del lenguaje

Un análisis a gran escala de miles de textos digitalizados ha permitido formular el primer tratamiento estadístico riguroso de la ley de Zipf, el principio universal que gobierna la frecuencia con que utilizamos las palabras.

Razones lingüísticas: Las diferentes palabras que aparecen en un texto lo hacen manteniendo proporciones bien definidas. Esta imagen, donde el tamaño de la fuente es proporcional al número de apariciones, ilustra el resultado para la obra Dorothy and the wizard in Oz (L. Frank Baum, 1908). Se han eliminado las palabras vacías. Gracias al análisis estadístico de miles de textos, un estudio reciente ha obtenido una formulación matemática más precisa de este enigmático fenómeno, conocido como ley de Zipf. [CORTESÍA DE LOS AUTORES]

La elección cuidadosa de las palabras constituye un ingrediente básico de la buena literatura. Todo autor es completamente libre de escoger qué palabra usar en cada momento. Sin embargo, hace más de un siglo que sabemos que esa libertad no parece aplicarse a la frecuencia relativa con que los autores emplean las palabras. En cualquier texto, la proporción en que aparecen las distintas voces sigue una pauta universal conocida como ley de Zipf, así llamada en honor al lingüista estadounidense George Kingsley Zipf, fallecido en 1950. Dicha ley parece afectar por igual a todos los textos, sin importar el autor, el idioma, la calidad literaria o, incluso, si se trata de un manual de jardinería o de una de las mejores obras de la literatura de todos los tiempos.

La ley de Zipf establece que la palabra más común en un texto aparecerá, aproximadamente, el doble de veces que la segunda más usada, el triple que la tercera, y así sucesivamente. Por ejemplo, en Dorothy and the wizard in Oz, de L. Frank Baum (1908), la palabra más frecuente es the, con 3137 apariciones; la segunda más común, and, puede leerse 1544 veces; la tercera, to, surge en 1107 ocasiones... y así hasta términos como wizardries, que aparecen una sola vez. Una curiosa consecuencia es que no existe ninguna diferencia fundamental entre las palabras comunes y las raras: la distinción parece totalmente arbitraria. Además, la ley implica que textos cada vez más largos nunca dejarán de sorprendernos con palabras nuevas. Dada su importancia al describir el uso del vocabulario, la ley de Zipf constituye el resultado primordial de la lingüística cuantitativa.

Más sorprendente aún, se ha visto que la ley de Zipf va mucho más allá de la lingüística, con aplicaciones en las ciencias humanas, la tecnología o la biología. Nueva York, por ejemplo, la ciudad más poblada de EE.UU., tiene aproximadamente el doble de habitantes que Los Ángeles, el triple que Chicago, etcétera. El mismo patrón se observa en el número de empleados de las empresas, el de fieles de las distintas religiones y sectas, el de enlaces o visitas que recibe cada página en Internet o el número de copias de cada proteína presentes en una célula.

Artículos relacionados

Puedes obtener el artículo en...

¿Tienes acceso?

Los boletines de Investigación y Ciencia

Elige qué contenidos quieres recibir.