"No se me ocurre nada tan propenso a impresionar la imaginación como la maravillosa forma de orden cósmico expresada por el [teorema central del límite]. Los griegos, de haberlo conocido, lo habrían divinizado. Reina con serenidad y total humildad en medio de la confusión más salvaje. Cuanto más grande es la multitud y mayor la anarquía aparente, mas perfecto es su dominio. Es la ley suprema de la sinrazón: siempre que una muestra grande de elementos caóticos juegan un papel similar en magnitud, emerge una forma insospechada y bella de regularidad, presente en estado latente desde el principio"
-- Sir Francis Galton --

Si los sociólogos, políticos o economistas pudiesen pedir un superpoder, sería sin duda la capacidad de predecir el comportamiento de un conjunto de personas. ¿Qué van a votar?, ¿Qué valores van a comprar?, ¿A qué manifestación van a ir?. Pero en principio los individuos tenemos libre albedrío, y por lo tanto hacemos lo que nos viene en gana. Si no podemos predecir el comportamiento de una sola persona, ¿qué posibilidades hay de predecir el comportamiento de miles?.

Casinos y ruletas

A un casino llegan muchas personas a jugar. En principio el resultado de una partida es imposible de predecir. Sin embargo, y como vamos a ver, el resultado colectivo de muchas partidas es, en cierto sentido, perfectamente predecible. Cojamos como ejemplo el juego rey de los casinos: la ruleta. En la ruleta cada jugador apuesta a un número entre el 0 y el 36. Si se acierta el número que sale en la ruleta uno gana 36 veces lo que ha apostado. Si no se pierde todo. Es importante resaltar que esa es la regla esencial de la ruleta, y los demas tipos de apuestas (rojo/negro, par/impar, etc...), solo representan formas abreviadas de realizar apuestas mas complejas. Por ejemplo, poner 18 euros a par es absolutamente equivalente a poner un euro en el 2, uno en el 4, ... El lector debería convencerse de que esto es así comprobando que salga el número que salga en la ruleta el resultado de las dos apuestas es equivalente.

Imaginemos primero un casino de muy poco exito al que solo va a jugar una persona al día. ¿Cual será la ganancia media del casino? Esto es facil de calcular: la ruleta tiene 37 posibilidades (los números entre 0 y 36, ambos inclusives), y el jugador solo puede ganar si sale un número concreto. Por lo tanto el casino ganará 36 de cada 37 veces un euro y perderá 35 euros 1 de cada 37veces. ¿Como podemos usar un ordenador para estimar las ganancias o perdidas de un casino? Simplemente simulando la situación muchas (digamos 100000) veces: nuestro primer contacto con el método Monte Carlo. El programa una_persona.py simula exactamente este caso. Las lineas


    ruleta = get_int()
    if (apuesta == ruleta):
        tot = tot - 35.0 # Si acierta tenemos que pagar 35 eur
    else:
        tot = tot + 1.0 # si falla ganamos 1 eur

    return tot

calculan lo que el casino gana o pierde después de una apuesta. Finalmente las lineas


for i in range(0,nrep):
    res[i] = float(ganancia(x))
    
media = np.mean(res)

print media
plt.hist(res,64,normed=True)
plt.show()

Repiten el experimento nrep veces. El programa no solo nos calcula la ganancia media del casino (que tiene que ser aproximadamente 36/37 - 35/37 = 1/37 = 0.027027), sino que pinta un histograma con los resultados, que deberá ser parecido a la figura de la derecha.

Muchos jugadores

No parece que hayamos avanzado mucho en nuestro propósito de predecir el azar. Nuestro experimento simplemente nos dice que 36 de cada 37 días el casino ganará un euro, y uno de cada 37 perderá 35, algo que ya sabíamos, pero seguimos sin tener ni idea de cuanto vamos a ganar o perder un determinado día.

Es sorprendente que lo único que hace falta para que podamos predecir con mucha precisión lo que el casino va a ganar un día sean simplemente más partidas: ¡cuantas más ruletas, más jugadores, y con un comportamiento más aleatorio, mejor!. La idea básica es la siguiente: imaginemos que juegan 100 veces a la ruleta. Que el casino pierda 3500 euros es un resultado posible, pero extremadamente improbable. Haría falta que el jugador acertase 100 veces seguidas. Sin embargo una ganancia por partida cercana a la media puede suceder de muchas formas posibles: el jugador puede acertar el numero en las partidas 1, 66 y 72. O en la 45, 67 y 88. O en la 22 y en la 33. A pesar de que es posible perder más dinero, hay muchísimas posibilidades para que las ganancias esten cerca de la media, y muy pocas de que se desvíe mucho. El programa campana.py simula esta situación y las siguientes figuras nos muestran los histogramas de las ganancias medias por partida del casino.

La curva que emerge cuando el número de jugadas crece es la campana de Gauss. Esta curva se caracteriza con dos parámetros: la media (donde esta centrada la curva), y la anchura típica que normalmente se denota con la letra griega σ (sigma). Fijaos que la curva se hace más y más estrecha cuando el número de jugadas crece (σ decrece con el número de jugadas). Si calculásemos la curva para 100,000,000 de jugadas prácticamente toda la curva estaría entre 0.024 y 0.030. En este caso las ganancias del casino por día serían perfectamente predecibles: entre 2,400,000 y 3,000,000 euros por día ¡una precisión del 3%!. Habría que esperar unos 4800 años para que un solo día las ganancias del casino se saliesen de ese rango.

El teorema central del límite

El resultado que hemos ilustrado más arriba se conoce como teorema central del límite. Este teorema nos dice que cuando un resultado es la suma de contribuciones independientes, de igual magnitud y "decentes" (más sobre esta condición luego) se aproxima más y más  a tener una distribución Gausiana cuando el numero de contribuciones crece. "Decente" quiere decir que las contribuciones tienen que tener un tamaño típico: las contribuciones extremas tienen que estar suprimidas por una probabilidad muy pequeña (En jerga matemática las contribuciones tiene que tener varianza finita). Además el tamaño típico de la Gaussiana (σ) crece con la raíz cuadrada del número de contribuciones. El caso del casino es típico: El resultado de lo que el casino va a ganar o perder al día es la suma de muchos efectos (lo que gana o pierde en cada jugada), estas son independientes (que el casino gane X en la jugada 34 no nos dice nada sobre lo que va a pasar en la 35), y cada una de esas contribuciones es "decente" en el sentido de que las perdidas/ganancias están acotadas (las reglas de la ruleta hacen que como máximo perdamos 35 y ganemos 1). Por lo tanto las ganancias medias de la ruleta serán siempre 0.27027, pero las desviación de esa media decrece como 1/√N. Si multiplicamos el número de jugadas por 4, las desviaciones de la media decrecen en un factor 2.

Las condiciones del teorema se pueden relajar un poco, y el resultado sigue siendo valido: no es necesario que las contribuciones sean estrictamente independientes, siempre y cuando las correlaciones sean pequeñas. Tampoco hace falta que las contribuciones sean todas de la misma magnitud, sino que no haya una contribución que domine sobre las demás.

Resulta interesante que las típicas reglas que tiene un casino se pueden interpretar como esfuerzos para hacer que el teorema central del límite siga siendo válido. Por ejemplo el que exista una apuesta máxima esta hecho para que sea imposible que una contribución domine sobre las demás.

Pero siempre conviene recordar que un teorema es solo tan valido como sus postulados. El teorema central del límite es un resultado asintótico, y por lo tanto cuantas contribuciones hacen falta en la practica para que la distribución esté bien aproximada por una Gausiana es una pregunta nada sencilla de responder. Por otro lado si existen correlaciones grandes entre las contribuciones (el equivalente a que todos los jugadores apuesten al mismo número, por ejemplo), el teorema central de límite deja de ser válido.

Po fueno, po fale po malegro

El teorema central del límite es sin lugar a dudas el ejemplo más importante de comportamiento colectivo. Muchísimos procesos que observamos son el resultado de la suma de muchos efectos: La presión que un gas ejerce en una pared es la suma de lo que cada molécula de gas "empuja" a la pared. La altura de las personas es el resultado de la alimentación, muchos genes distintos, y otros factores ambientales. El valor de una acción en bolsa es el resultado de la interacción de todas las personas que compran o venden acciones. El teorema central del límite es un resultado sorprendentemente sencillo que nos ayuda a entender una variedad de fenómenos. En la computación también tiene un papel principal, ya que es la base de los métodos de Monte Carlo, que ya hemos mencionado.

Sin embargo, no es universalmente aplicable y a veces el comportamiento colectivo no produce distribuciones gaussianas. Las leyes invariantes de escala (leyes de Pareto por ejemplo) parecen ser la norma en muchas situaciones importantes a nivel practico: fluctuaciones en bolsa, intensidad de los terremotos, patrón de ediciones de la wikipedia o de voto en las elecciones, etc... Los sistemas fuera del equilibrio y con una dinámica no lineal (como los nombrados más arriba) parecen producir un comportamiento colectivo con correlaciones de largo alcance que se escapan del control del teorema central del límite. Actualmente se considera que estas correlaciones juegan un papel en como la complejidad emerge a partir de unas leyes sencillas, un área de investigación sin duda fascinante. El que quiera saber más y sepa ingles seguramente disfrutará del libro Critical Mass: How One Thing Leads to Another de Philip Ball.

A un nivel mucho más mundano, hoy también espero haber convencido al lector de que no hay forma de ganarle al casino jugando a la ruleta, ya que supone jugar contra un teorema. No hay estrategia que se le escape al teorema central del límite, por complicada que sea. Solo hay una posible salida: que no todos los números tengan la misma probabilidad de salir en la ruleta. He de confesar que nunca he creído que en la practica las ruletas sean un sistema lo suficientemente predecibles como para vencer la ventaja que tiene el casino, pero parece que he de rendirme ante la evidencia.

Alberto Ramos
Alberto Ramos

Investigador postdoctoral en DESY, Alemania

Sobre este blog

Ahora mismo usted está frente a un impresionante devorador de números, capaz de realizar más de 100.000.000.000 operaciones por segundo. Pero en este blog no nos vamos a ocupar de los ordenadores, porque a la ciencia le importan bien poco, al igual que no le interesan los tubos de ensayo ni los aceleradores de partículas. La ciencia trata sobre lo que podemos aprender usando estas herramientas. Veamos qué podemos aprender con los ordenadores.

Ver todos los artículos