Utilizamos cookies propias y de terceros para mejorar nuestros servicios y facilitarte el uso de la web mediante el análisis de tus preferencias de navegación. También compartimos la información sobre el tráfico por nuestra web a los medios sociales y de publicidad con los que colaboramos. Si continúas navegando, consideramos que aceptas nuestra Política de cookies .

Abandonar la significación estadística

Más de 800 expertos, entre ellos los autores de este artículo, solicitan que se deje de diferenciar las hipótesis científicas en categorías ­dicotómicas a partir del valor p.

Getty Images / kasezo / iStock

En síntesis

Más de 800 expertos abogan por abandonar los valores p como criterio de significación estadística, ya que adolece de limitaciones.

Hasta ahora, el valor p ha servido para diferenciar hipótesis «estadísticamente significativas» de «estadísticamente no significativas». Eso lleva a establecer dos categorías, que, en realidad, no existen. De ello se deriva, a su vez, la falsa idea de que los resultados son, en principio, distintos.

Los intervalos de confianza se deberían manejar de manera diferente. Habría que tener en cuenta otros datos dentro del intervalo, por ejemplo. De este modo, sería preferible hablar de intervalos de compatibilidad.

¿Cuándo fue la última vez que escuchó a un científico que, al presentar los resultados de un estudio, decía que no había ninguna diferencia entre dos grupos porque la diferencia «no era estadísticamente significativa»? Si es usted investigador en el campo de la medi­cina o la psicología, es muy probable que esto le haya sucedido la última vez que asistió a una ponencia. Esperamos que al menos una persona del auditorio se mostrara perpleja si, como ocurre con frecuencia, en un gráfico o una tabla sí que aparecía una diferencia.

¿Cómo es posible que la estadística lleve a los científicos a negar diferencias que los legos en estadística detectan a simple vista? Durante varias generaciones, se ha advertido a los investigadores de que un resultado estadísticamente no significativo no «demuestra» la hipótesis nula (hipótesis según la cual no hay diferencia entre los grupos, o el tratamiento carece de efectos sobre alguno de los resultados medidos). Por otro lado, los resultados estadísticamente significativos tampoco «demuestran» otro tipo de hipótesis. Estas interpretaciones erróneas han contaminado, como es bien sabido, la bibliografía de aseveraciones exageradas y generado, algo ya no tan conocido, conflictos entre estudios donde no existían esas malinterpretaciones. Ofrecemos algunas propuestas para que los científicos no sean presa de tales conceptos equivocados.

Un problema generalizado

Formulemos claramente qué debemos frenar: jamás deberíamos concluir que no existe «ninguna diferencia» o «ninguna asociación» solo porque un valor p sobrepase un umbral (por ejemplo, 0,05) o, de manera equivalente, solo porque un intervalo de confianza incluya el cero. Tampoco deberíamos concluir que dos estudios entran en conflicto porque en uno de ellos se obtuvo un resultado estadísticamente significativo y en el otro no. Estos errores echan por tierra las investigaciones y aportan poca información a los responsables de las decisiones políticas.

Consideremos una serie de análisis de los efectos no deseados de los antiinflamatorios. Como los resultados obtenidos no alcanzaron significación estadística, un grupo de investigadores llegó a la conclusión de que la exposición a estos medicamentos «no se asociaba» a la aparición de fibrilación auricular (la arritmia más frecuente) y que esos resultados contrastaban con los de un estudio previo en el que se había advertido un resultado estadísticamente significativo.

Examinemos ahora los datos reales. Los investigadores que comunicaron los resultados estadísticamente no significativos obtuvieron una razón de riesgos de 1,2 (es decir, el riesgo para los pacientes expuestos aumentaba un 20 por ciento con relación al de los no expuestos). Asimismo, detectaron que el intervalo de confianza del 95 por ciento abarcaba desde una disminución insignificante del riesgo del 3 por ciento hasta un aumento considerable del riesgo del 48 por ciento (p = 0,091; según nuestro cálculo). Los autores del trabajo previo y estadísticamente significativo hallaron exactamente la misma razón de riesgos: 1,2. Aquel estudio simplemente era más preciso y el intervalo de mayor riesgo fluctuaba desde el 9 por ciento hasta el 33 por ciento (p = 0,0003; según nuestro cálculo).

Puedes obtener el artículo en...

¿Tienes acceso?

Los boletines de Investigación y Ciencia

Elige qué contenidos quieres recibir.