"Las probabilidades son características objetivas de aquellos fenómenos que, debido a sus propiedades inherentes, tienen una estabilidad en sus frecuencias. La probabilidad de un suceso no depende de ninguna opinión subjetiva." -- A. N. Kolmogorov --

Probabilidad condicional y el teorema de Bayes

El teorema de Bayes es un resultado sencillo con consecuencias muy profundas, que llegan hasta el mismo significado de la palabra probabilidad.

El teorema de Bayes se puede deducir fácilmente de la siguiente manera. Imaginemos dos sucesos A y B. Cuál es la probabilidad de que sucedan ambos (llamémoslo p(AyB)): simplemente es la probabilidad de que suceda A dado que sucede B (probabilidad condicionada denotada p(A|B)) multiplicada por la probabilidad de B


p(AyB) = p(A|B) p(B)

Un ejemplo aclarará la situación: La probabilidad de que lleve paraguas y llueva se puede calcular como la probabilidad de que lleve paraguas si llueve multiplicada por la probabilidad de que llueva. Pero uno puede darle la vuelta a la ecuación, y escribir


p(AyB) = p(B|A) p(A)

(Es decir, la probabilidad de que lleve paraguas y llueva es igual a la probabilidad de que llueva si llevo paraguas multiplicada por la probabilidad de llevar paraguas.) El teorema de Bayes simplemente resulta de igualar las dos ecuaciones anteriores


p(A|B) = p(B|A) p(A)/p(B)

Visto así el teorema de Bayes es simplemente un resultado sobre la probabilidad condicional. Es el uso que la inferencia bayesiana hace de él lo que es revolucionario. Podemos usar el teorema de Bayes para actualizar las probabilidades de ciertos sucesos cuando tenemos acceso a nueva información.

La inferencia bayesiana

Veamos un ejemplo concreto: Imaginemos que mis llaves pueden estar en N sitios distintos (pantalones, mesa, chaqueta,...) con la misma probabilidad. Un determinado día llego a casa y creo que he perdido las llaves (es decir que hay una determinada probabilidad inicial de haberlas perdido). Además no encuentro las llaves en uno de los N sitios. ¿Cómo tengo que modificar el valor de la probabilidad de que las haya perdido dada la nueva evidencia? Sea A el suceso "he perdido las llaves". Y sea B el suceso "no he encontrado las llaves en un sitio (de N)". En este caso el teorema de Bayes nos da una forma de calcular la probabilidad de haber perdido las llaves dado que no las he encontrado en un sitio de los N en que podían estar (p(A|B)).

¿Qué necesitamos para calcularla? Pues necesitamos p(B|A) que no es más que la probabilidad de no encontrar las llaves en un sitio de los N posibles si las hemos perdido: es decir 1. Necesitamos p(A), es decir la probabilidad inicial de haber perdido las llaves. Este es un punto importante de la inferencia bayesiana: a partir de una probabilidad inicial de haber perdido las llaves, el teorema de Bayes nos dice cómo esa probabilidad se modifica al saber más cosas. Pero no hay forma de saber la probabilidad inicial. A esta se la llama normalmente "probabilidad a priori" (o simplemente prior). Como no sabemos qué valor poner, vamos a llamarla simplemente p.

También necesitamos p(B), es decir la probabilidad de no encontrar las llaves. Esta es algo más difícil de calcular, así que el lector va a tener que pensarlo un rato hasta convencerse: la probabilidad de no encontrar las llaves en un sitio de N (p(B)) es igual a la probabilidad de no encontrar las llaves si las he perdido (1) multiplicado por la probabilidad de perderlas (la hemos llamado p) más la probabilidad de no encontrar las llaves si no las he perdido ((N-1)/N) multiplicada por la probabilidad de no perderlas (1-p). Es decir


p(B) = p(B|A) p(A) + p(B|no A)p(no A) = 1 p + (N-1)/N (1-p) = (p+N-1)/N

Si ponemos las piezas juntas, la probabilidad actualizada tras una búsqueda fallida viene dada por


p(A|B) = Np/(p+N-1)

Imaginemos que sigo buscando en todos los N sitios y sigo sin encontrar las llaves. ¿Cómo va modificándose la probabilidad de haberlas perdido? El programa bayes.py calcula este caso y nos muestra una gráfica como la de la derecha a partir de una determinada probabilidad a priori (usando N=10, aunque el lector puede modificar este valor).

¿Qué son las probabilidades?

La visión tradicional (llamada a veces "frecuentista") de la probabilidad es la expresada por Kolmogorov en la cita que abre este post: las probabilidades son características objetivas de aquellos sucesos que tienen una estabilidad en sus frecuencias. La probabilidad de acertar la lotería no depende de la persona que la calcula, ni de ningún otro dato subjetivo.

Frente a esta visión, la interpretación bayesiana afirma que las probabilidades no son más que "valoraciones subjetivas" de lo plausible que es un determinado suceso. Estas probabilidades subjetivas se van actualizando cuando poseemos más y más información a base de aplicar el teorema de Bayes.

La interpretación bayesiana nos permite hablar de "la probabilidad de que el universo empezase con un Big Bang", o de "la probabilidad de que haya armas de destrucción masiva en Iraq". Estas "probabilidades" no son tales para un frecuentista, ya que hablar de la probabilidad de un hecho que, por definición, es único, no tiene sentido. Cuando tenemos que enfrentarnos a este tipo de problemas, la interpretación bayesiana es fundamental, ya que nos da una forma de trabajar con esas "probabilidades subjetivas" que es coherente (si seguimos las reglas de la inferencia bayesiana jamas obtendremos probabilidades mayores que 1 o negativas). La frase "Cualquier extensión de la lógica aristotélica al campo de lo plausible es isomorfa [equivalente] a la inferencia bayesiana" lo expresa bastante bien.

Pero por mucho que las reglas de la inferencia bayesiana estén muy claras, no hay que olvidar que siempre dependen de una determinada suposición: la probabilidad "a priori". Los mismos datos pueden llevar a conclusiones muy distintas si usamos distintas probabilidades a priori. Una sencilla modificación de nuestro programa (que se deja como ejercicio) bayes.py nos vale de ejemplo. Vamos a aumentar el número de sitios en los que pueden estar las llaves a 100. Además vamos a calcular la probabilidad de encontrar las llaves en el siguiente sitio que busquemos. Finalmente vamos a considerar dos casos, una persona que inicialmente está muy segura de que ha perdido las llaves (p=0.95), y una persona que esta muy segura de que no las ha perdido (p=0.05). ¿Cómo les afectan a estas dos personas los mismos datos? La respuesta es la figura de la derecha.

Como podemos ver, para el convencido de que las llaves están en algún sitio, el hecho de no encontrarlas en otro de los sitios posibles ¡solo le hace estar más seguro de que las va a encontrar en el próximo lugar! Su razonamiento, incluso cuando no ha encontrado las llaves tras 95 busquedas parece ser: "Bien, otro sitio registrado. Ya quedan menos!". Sin embargo para el que no cree que las llaves estén en ningún lado, los mismos datos (no encontrar las llaves) solo refuerzan su creencia y le hacen estar más y más seguro de que las llaves tampoco van a estar en el siguiente sitio.

Estoy seguro de que el ejemplo le resultará familiar al lector en distintos contextos: El que hasta ahora no haya rastro de supersimetría en los experimentos del LHC solo hace que los que están seguros de que la supersimetría es verdad crean que está a la vuelta de la esquina, mientras que para los que "no creen" en la supersimetría es una prueba muy fuerte de que la supersimetría no es una teoría correcta para describir la naturaleza. El paralelismo con el caso de las armas de destrucción masiva en Iraq también es bastante sorprendente.

Po fueno, po fale po malegro

El ejemplo con el que hemos trabajado hoy es de un curso de Roger Barlow sobre estadística avanzada para estudiantes de doctorado que ha tenido lugar recientemente en DESY, el laboratorio en el que trabajo. Me sorprendió y simplemente me pareció buena idea contarlo aquí.

La interpretación bayesiana de la probabilidad tiene cada vez más adeptos, y la razón tiene que ver en parte con los ordenadores. En casos reales el proceso de "actualizar" la distribución de un parámetro requiere mucha capacidad de cálculo y solo es posible gracias a los ordenadores (y, de nuevo, a los métodos de Monte Carlo). La inferencia bayesiana se usa para diseñar filtros de SPAM, diagnosticar enfermedades, diseñar sistemas expertos, reconocimiento de patrones, etc.

Las aplicaciones son innumerables. Se ha llegado a dar la situación en la que se le ha explicado el teorema de Bayes a los miembros de un jurado para que estos puedan actualizar la "probabilidad de que el acusado sea culpable" a la luz de las pruebas. Finalmente el jurado debía condenar o no según la probabilidad a posteriori (si estaba más allá de una duda razonable). El caso no se libró de la polémica: para los frecuentistas (entre los que me incluyo) la "probabilidad de que el acusado sea culpable" no tiene ningún sentido. La labor del jurado es evaluar la probabilidad de las pruebas asumiendo que el acusado es inocente. Si esa probabilidad es minúscula (más allá de una duda razonable), entonces hay que condenarle.

En la práctica la inferencia bayesiana da resultados muy buenos, debido a que nuestro conocimiento inicial suele ser acertado y las probabilidades a priori "razonables". Muchas veces permite estudiar casos que no podríamos estudiar de otra forma. Sin embargo creo que es justo decir que los resultados de la inferencia bayesiana no se deben considerar resultados probados con los métodos de la estadística. Advierto al lector que mucha gente (que sabe muchísima más estadística que yo) no está de acuerdo con esta afirmación.

Estas eternas guerras entre frecuentistas y bayesianos también pueden ser bastante divertidas, y el que sepa inglés puede reírse un rato con algunas de estas bromas.

En cualquier caso, y más allá de guerras sobre el significado de la palabra probabilidad, creo que el teorema de Bayes y la inferencia bayesiana nos muestran cómo funciona nuestra cabeza. De forma intuitiva nosotros vamos modificando nuestras "opiniones" a la luz de nuevos hechos (lecturas, conversaciones, etc.) No soy tan ingenuo como para pensar que el teorema de Bayes puede explicar todas los desacuerdos de nuestro mundo, sin embargo, y como hemos visto, los mismos hechos no tienen por qué modificar las opiniones en el mismo sentido, una lección que me parece importante. La próxima vez que crea que alguien está "negando la evidencia", ya sabe el culpable: ¡distintos priors!

Alberto Ramos
Alberto Ramos

Investigador postdoctoral en DESY, Alemania

Sobre este blog

Ahora mismo usted está frente a un impresionante devorador de números, capaz de realizar más de 100.000.000.000 operaciones por segundo. Pero en este blog no nos vamos a ocupar de los ordenadores, porque a la ciencia le importan bien poco, al igual que no le interesan los tubos de ensayo ni los aceleradores de partículas. La ciencia trata sobre lo que podemos aprender usando estas herramientas. Veamos qué podemos aprender con los ordenadores.

Ver todos los artículos