Utilizamos cookies propias y de terceros para mejorar nuestros servicios y facilitarle el uso de la web mediante el análisis de sus preferencias de navegación. También compartimos la información sobre el tráfico por nuestra web a los medios sociales y de publicidad con los que colaboramos. Si continúa navegando, consideramos que acepta nuestra Política de cookies .

Actualidad científica

Síguenos
  • Google+
  • RSS
  • Noticias
  • 03/09/2017

Reproducibilidad

Grandes expertos en el uso de la estadística proclaman que 0,05 no es el filtro adecuado

Uno de los estadísticos muestrales más utilizados, el llamado valor p, debería estar sometido a criterios más estrictos, dicen investigadores destacados.

Nature Human Behaviour

Menear

Setenta y dos investigadores de distintos campos han acumulado en un artículo las razones estadísticas por las que, para confiar en un resultado obtenido a partir de los datos de experimentos o de la observación, se debería aplicar un criterio más riguroso que el habitual en algunas disciplinas. 

La ciencia padece una crisis de reproducibilidad: a los investigadores, los proveedores de fondos y los editores les preocupa cada vez más que la bibliografía académica esté plagada de resultados irreproducibles. Ahora, un grupo de 72 destacados investigadores apunta a lo que consideran una causa del problema: los débiles criterios estadísticos que se aplican a las pruebas a la hora de decir que se ha logrado un descubrimiento.

En muchas disciplinas la relevancia del resultado se juzga por medio de valores p. Con ellos se comprueba (y rechaza) una «hipótesis nula», que propone que el efecto que se está comprobando no existe. Cuanto menor sea el valor p que se le halle a un conjunto de resultados, menos probable será que se deban puramente al azar. Se establece que los resultados son «estadísticamente significativos» cuando ese valor es menor que 0,05.

Muchos científicos, no obstante, se temen que el umbral del 0,05 ha hecho que se publiquen muchos falsos positivos, problema exacerbado por una forma de proceder conocida como p-hacking, en la que los investigadores reúnen datos sin haber enunciado primero una hipótesis que se vaya a poner prueba y buscan luego en los resultados unos patrones que se puedan presentar como estadísticamente significativos.

Así, en un texto encaminado a provocar el debate y publicado el 22 de julio en el repositorio de preimpresiones PsyArXiv, esos 72 investigadores sostienen que los umbrales del valor p deben disminuir en las ciencias sociales y biomédicas hasta 0,005. [El artículo definitivo se publicó el 1 de septiembre en Nature Human Behaviour].

«Los investigadores no son conscientes, simplemente, de lo débil que es la prueba cuando el valor p es 0,05», dice Daniel Benjamin, uno de los coautores principales, economista de la Universidad del Sur de California, en Los Ángeles. Cree que los resultados comunicados con valores p de entre 0,05 y 0,005 deberían recibir la consideración meramente de «indicio sugerente» en vez de la de conocimiento establecido.

Entre los coautores hay dos pesos pesados de la reproducibilidad: John Ioannidis, que estudia la robustez de los resultados científicos en la Universidad de Stanford, en California, y Biran Nosek, director ejecutivo del Centro para la Ciencia Abierta, en Charlotesville, Virginia.

Muestras extragrandes

Un problema de reducir los umbrales del valor p es que puede aumentar la probabilidad de un falso negativo (establecer que no existe un efecto cuando sí existe), dice Casper Albers, investigador en psicometría y estadística de la Universidad de Groningen, en Holanda. Para contrarrestar este problema, Benjamin y sus colegas sugieren que los investigadores aumenten el tamaño de las muestras en un 70%; sostienen que esto impediría que aumentasen los porcentajes de falsos negativos mientras que a la vez se reduciría fuertemente el de falsos positivos. Pero Albers cree que en la práctica solo los científicos bien provistos de fondos tendrían los medios para proceder así.

Shlomon Argamon, científico de la computación del Instituto de Illinois de Tecnología, en Chicago, mantiene que no hay una respuesta simple para el problema, ya que «no importa qué nivel de confianza se elija, si hay un número suficientemente grande de formas de diseñar el experimento será muy probable que al menos una de ellas dé un resultado estadísticamente significativo solo por azar». Se necesitan, sostiene, cambios más radicales, como unos nuevos incentivos y criterios metodológicos para la investigación.

Disminuir los umbrales del valor p puede también agravar el «problema del archivador»: los estudios con resultados negativos se dejan sin publicar, dice Tom Johnstone, neurocientífico cognoscitivo de la Universidad de Reading, en el Reino Unido. Pero Benjamin afirma que se deberían publicar todas las investigaciones, sea cual sea su valor p.

Un blanco en movimiento

Otros campos de la ciencia han actuado ya sobre los valores p. En 2015, una revista de psicología los prohibió. Los físicos de partículas, que reúnen miríadas de datos en los experimentos donde hacen chocar unas partículas con otras, han venido exigiendo un valor de p inferior a 0,0000003 (o 3 X 10-7); les preocupa que un umbral más bajo pudiera conducir a aseveraciones equivocadas, como señala Valen Johnson, estadístico de la Universidad A&M de Texas, en College Station, y coautor del artículo. Hace más de una década, los genetistas dieron pasos similares para establecerles un umbral de 5 X 10-8 a los estudios de asociación a lo largo del genoma, que buscan diferencias a lo largo de cientos de miles de variantes de las letras del ADN de quienes padecen una enfermedad y quienes no.

Sin embargo, otros científicos han abandonado los valores p en favor de herramientas estadísticas más elaboradas, como los tests bayesianos, que requieren que los investigadores definan y comprueben dos hipótesis alternativas. Pero no todos los investigadores tienen el conocimiento técnico necesario para efectuar tests bayesianos, dice Johnson, quien cree que los valores p todavía pueden ser útiles para calibrar si una hipótesis está respaldada por las pruebas experimentales. «El valor p no es necesariamente maligno».

Dalmeet Singh Chawla/Nature News.

Artículo traducido y adaptado por Investigación y Ciencia con permiso de Nature Research Group.

Referencia: «Redefine statiscal significance», Daniel Benjamin et al. en Nature Human Behaviour, 1 de septiembre de 2017; se puede leer la prepublicación en PsyArXiv, 22 de julio de 2017.

Artículos relacionados

BOLETÍN ACTUALIDAD¿Quieres estar al día de la actualidad científica? Recibe el nuevo boletín de actualidad con nuestros mejores contenidos semanales gratuitos (noticias y posts). Si lo deseas también puedes personalizar tu suscripción. BOLETÍN ACTUALIDAD¿Quieres estar al día de la actualidad científica? ¡Recibe el nuevo boletín de contenidos gratuitos! Ver más boletines.