Urnas y novedades

30/03/2015 0 comentarios
Menear

Contra lo que puede parecer, este post no trata de las recientes elecciones andaluzas, sino de la dinámica de las novedades, que un grupo de investigadores acaba de modelar basándose en la famosa urna de Pólya. Una vez más, un modelo matemático originalmente pensado como problema combinatórico nos sirve, convenientemente retocado, para describir las características básicas de la aparición de novedades y de la correlación entre unas y otras. E insisto, ¡nada que ver con la aparición de nuevos partidos políticos!

mate2.pngGeorge Pólya fue un gran matemático nacido en Hungría en 1887. Además de tocar numerosos campos de la matemática, entre los que se cuentan la probabilidad y la estadística, que son los que nos van a ocupar hoy, es famoso por una serie de libros sobre cómo resolver problemas matemáticamente, empezando por el titulado How to solve it (Cómo resolverlo). Una de las herramientas más útiles que creó, en un trabajo conjunto con Eggenberger es la urna de Pólya (enlace a Wikipedia en inglés), una representación abstracta de problemas en cálculo de probabilidades y estadística que hace particularmente fácil entenderlos. En este modelo, lo que sea que estamos estudiando no nos importa: pueden ser berenjenas, peatones, acciones, da igual. El caso es que sean cosas contables y que las podamos representar por bolas de colores. En su versión más sencilla, echamos en la urna una cantidad de bolas blancas y otra de bolas negras. Entonces comienza un proceso iterativo en el que se extrae una bola al azar de la urna y se devuelve a ella junto, y aquí está lo interesante, con otra de su mismo color. Esto se puede generalizar obviamente a bolas de varios colores, a introducir más de una bola nueva, en fin, a lo que nos convenga para cada problema en el que hacemos muestreo con reemplazo. Es interesante notar que este modelo conduce directamente al llamado efecto Mateo: el número de bolas de las que hay más crece cada vez más. 

Este sencillo modelo, como decíamos, es una herramienta para pensar sobre problemas concretos de manera concreta pero independientemente de las entidades involucradas en ellos (cómo nos gusta esto a la gente que trabajamos en sistemas complejos). Y una de esas generalizaciones es la que proponen Francesca Tria, Vittorio Loreto, Vito Servedio y el famosísimo (al menos en el mundillo) matemático aplicado Steven Strogatz en este artículo reciente. La pregunta que aborda este equipo interdisciplinar fue formulada por Stuart Kauffman hace un par de décadas (véase por ejemplo su libro Investigations). Kauffm3760-adjacentPossible.jpgan, biólogo teórico y científico de la complejidad, propuso que en torno a lo que conocemos (de manera general: especies animales, conceptos, lo que sea) está el adjacent possible (aquí un vídeo de Kauffman hablando del tema, en inglés), es decir aquello que se puede alcanzar desde nuestro conocimiento o estado actual. Cada vez que damos un paso dentro de ese conjunto de posibilidades lo modificamos, realizando algunas y abriendo las puertas a otras nuevas. Si esto es así y ese espacio abstracto está estructurado de esa manera, debería haber correlaciones entre la aparición de nuevos conceptos o entidades.

Los autores del trabajo citado se plantean analizar si esto es realmente así estudiando la dinámica de aparición de novedades. Por novedades no entienden necesariamente descubrimientos, sino cosas que para alguien son nuevas. Por ejemplo, la primera vez que oí la palabra "fistro" fue una novedad para mí, pese a que no lo fuera para su creador. Al oírla, el adyacente posible es modificado, ya que se abren las puertas del chiquitistaní.  Como ejemplos concretos y cuantificables de novedades, Tria y colaboradores analizaron los siguientes: 

  • Textos: las entidades son las palabras, y una novedad es la primera ocurrencia de cada palabra en el texto. 
  • Catálogos musicales online: las entidades son canciones, y una novedad para un oyente es la primera vez que escucha una cierta canción.
  • Wikipedia: las entidades son las páginas, y las novedades la primera vez que cada persona la edita, tanto el que crea la página como los que sucesivamente la modifican. 
  • Sistemas de etiquetado social: las entidades son las etiquetas, y las novedades la creación de etiquetas nuevas o uso por primera vez de etiquetas existentes por una persona. 

Para no alargarnos demasiado, no entraré a discutir los datos que utilizaron, pero si alguien está interesado los autores dan todos los detalles. Iré, pues, directamente a los resultados. La gráfica siguiente recoge el resultado de analizar estos ejemplos y muestra que en todos los casos, con mayor o menor precisión, se cumplen dos leyes empíricas: la ley de  Heaps y la ley de Zipf. 

 leyes novedades.jpg

La ley de Heaps se observa a la izquierda: el número de novedades D(N) depende de la longitud en palabras del texto analizado, N, como una ley de potencias, es decir, varía como N elevado a una cierta potencia. En cuanto a la ley de Zipf, nos dice que si ordenamos las palabras de la más frecuente a la menos frecuente, la frecuencia de cada una es inversalmente proporcional a su situación en el ranking. Estas leyes son prueba de que la aparición de novedades no es puramente azarosa, sino que hay correlaciones como debería ser si las ideas de Kauffman fuesen ciertas (pero, como siempre, hay que ser cuidadoso: esto no prueba la existencia del adyacente posible, simplemente no la contradice).

Aquí es donde interviene Pólya: como modelo del proceso de aparición de novedades, los autores introducen una versión más general del modelo de la urna, con las siguientes prescripciones: la urna tiene un número inicial No de entidades, representadas como siempre por bolas de distintos colores. La clave es considerar el adyacente posible: cada vez que aparece una entidad por primera vez, al hacer una extracción, vamos a hacer que el número de entidades posibles crezca. Concretamente, lo que ocurre es que si hacemos una extracción y ya hemos obtenido antes una bola de ese color, nos ceñimos al proceso de Pólya, y la reponemos en la urna junto con r copias suyas. Pero si es la primera vez que aparece, lo que hacemos es devolverla y añadir n+1 bolas de nuevos colores, representando el cambio introducido gracias al adyacente posible. Como podemos ver en la figura anterior, en las dos gráficas de abajo, el modelo verifica también las leyes de Heaps y de Zipf, y variando sus parámetros podemos obtener distintas pendientes que serían comparables a las de los distintos casos estudiados. 

Los autores introducen también una versión algo más elaborada, en la cual profundizan en la naturaleza de las correlaciones entre novedades analizando la "semántica", es decir, la existencia de grupos de entidades que tienen relaciones con significado. Por ejemplo, en el caso de las canciones, estarían en el mismo grupo semántico aquellas que fueran del mismo autor. Explicar esta versión más avanzada del modelo requeriría bastante más discusión, por lo que no entraré en ella, pero sí le diré que esta modificación se parece bastante más a los datos reales, tanto en lo tocante a las leyes arriba citadas como a otras distribuciones estadísticas consideradas por los autores.