Utilizamos cookies propias y de terceros para mejorar nuestros servicios y facilitarte el uso de la web mediante el análisis de tus preferencias de navegación. También compartimos la información sobre el tráfico por nuestra web a los medios sociales y de publicidad con los que colaboramos. Si continúas navegando, consideramos que aceptas nuestra Política de cookies .

1 de Diciembre de 2019
Matemáticas

El problema de la significación estadística

Algunos métodos estadísticos tradicionales están recibiendo cada vez más críticas. ¿Hace falta cambiar la práctica científica?

MARK ALLEN MILLER

En síntesis

El uso de valores p durante casi un siglo ha generado una falsa sensación de certeza y una crisis de reproducibilidad en varias disciplinas científicas.

Hoy existe una determinación creciente para reformar los métodos estadísticos usados en ciencia, aunque no hay acuerdo sobre qué medidas concretas deberían tomarse.

El mal uso de los valores p ha generado una falsa necesidad de certidumbre. Tanto los científicos como el público general deberían aprender a manejar e interpretar resultados inciertos.

En 1925, el genetista y estadístico británico Ronald Fisher publicó el libro Métodos estadísticos para quienes trabajan en investigación. Aunque el título no auguraba un superventas, la obra acabó siendo un éxito que convirtió a Fisher en el padre de la estadística moderna. En ella abordaba el problema de cómo aplicar tests estadísticos a un conjunto de datos para saber si un determinado hallazgo merecía seguir siendo investigado. En particular, Fisher hacía referencia a un test para cuantificar hasta qué punto los datos experimentales resultaban compatibles con una determinada hipótesis de trabajo. Dicha compatibilidad quedaba recogida en un número conocido como «valor p», y Fisher recomendaba tomar como umbral p = 0,05: «Es conveniente tomar este punto como límite a la hora de juzgar si una desviación debe considerarse significativa o no». Busque resultados con valores p por debajo de ese umbral, aconsejaba, y no pierda tiempo con aquellos que lo superan. Así nació la idea de que un valorp inferior a 0,05 corresponde a resultados «estadísticamente significativos».

Casi un siglo después, numerosas disciplinas siguen considerando un valorp inferior a 0,05 como la regla de oro que certifica el mérito de un experimento. Dicho umbral abre las puertas a la financiación y la publicación y, como tal, sustenta la mayoría de las conclusiones científicas que acaban viendo la luz. Sin embargo, incluso Fisher entendió que el concepto de significación estadística y el valor p que lo sustentaba adolecían de limitaciones, la mayoría reconocidas desde hace décadas. «La excesiva dependencia de los tests de contraste de hipótesis es una forma pobre de hacer ciencia», escribía el psicólogo Paul Meehl en 1978. Los valores p a menudo se malinterpretan, y significación estadística no equivale a significación práctica. Además, las decisiones metodológicas que atañen a todo trabajo experimental hacen posible que, de manera consciente o inconsciente, un investigador altere un valor p. «Como suele decirse, la estadística permite demostrar cualquier cosa», ironiza el estadístico y epidemiólogo Sander Greenland, profesor emérito de la Universidad de California en Los Ángeles y una de las principales voces reformistas. A menudo, los estudios que solo se centran en lograr la significación estadística o en señalar su ausencia acaban dando lugar a afirmaciones inexactas: muestran como verdaderas cosas que no lo son y viceversa. Cuando Fisher se retiró a Australia, le preguntaron si había algo en su dilatada carrera de lo que se arrepintiese. Según parece, respondió: «Haber mencionado 0,05».

En la última década el debate se ha intensificado. Un medio ha llegado a calificar los fundamentos del análisis estadístico como «el secreto más sucio de la ciencia», y otro ha denunciado «múltiples errores graves» en los tests de hipótesis. La economía experimental, la biomedicina y especialmente la psicología se han visto envueltas en una controvertida crisis de reproducibilidad, la cual ha revelado que un porcentaje sustancial de los hallazgos publicados no pueden replicarse. Un ejemplo es la idea de «pose de poder», la cual sostiene que un lenguaje corporal asertivo no solo influye en nuestra actitud, sino también en nuestras hormonas. Una conclusión basada en un artículo que, desde entonces, ha sido repudiado incluso por uno de sus autores. Un trabajo sobre la economía del cambio climático, escrito por un escéptico, «terminó teniendo casi tantas correcciones como puntos experimentales, [...] pero nada de eso bastó para que [el autor] cambiase su conclusión», escribía el estadístico de la Universidad de Columbia Andrew Gelman en su blog, donde suele citar ejemplos de investigaciones de mala calidad. «Está bien hacer un trabajo puramente teórico, pero entonces que no nos distraigan con datos», escribía Gelman.

Aunque no constituye el único factor, el concepto de significación estadística ha emergido como parte obvia del problema. En los últimos tres años, cientos de investigadores han pedido con urgencia una reforma y han firmado o apoyado artículos en prestigiosas revistas que pedían redefinir la idea o incluso abandonarla por completo. La Asociación Americana de Estadística (ASA), que en 2016 emitió una dura e inusual declaración sobre el asunto, ha argumentado a favor de «dejar atrás el mundo de p<0,05». Ronald Wasserstein, director ejecutivo de la ASA, lo explica así: «Se supone que la significación estadística es como seleccionar a alguien en Tinder: solo indica un cierto nivel de interés. Pero, por desgracia, no es eso en lo que se ha convertido. La gente dice: “Tengo 0,05, estoy satisfecho”. Eso detiene la ciencia».

Artículos relacionados

Puedes obtener el artículo en...

¿Tienes acceso?

Los boletines de Investigación y Ciencia

Elige qué contenidos quieres recibir.