El mundo académico contra p

15/03/2015 4 comentarios
Menear

¿De qué se acusa al valor p? Por Ana Muñoz van den Eynde

Un reciente artículo aparecido en Investigación y Ciencia planteaba graves interrogantes sobre el papel de la estadística en la puesta a prueba de hipótesis científicas. El artículo, titulado “El valor resbaladizo de p” y firmado por Regina Nuzzo, es el disparador de la interesante reflexión de una colega y amiga, Ana Muñoz van den Eynde, que quiero compartir en esta nueva entrega. Ana es investigadora de la Unidad de Investigación en Cultura Científica del CIEMAT en Madrid, donde trabaja en el análisis y diseño de estudios de percepción pública sobre ciencia, medio ambiente e innovación. Su contribución aborda críticamente las dudas que han surgido en el mundo académico acerca de la utilidad, confianza y calidad de los resultados que se apoyan en el cálculo de p, el nivel crítico de un contraste de hipótesis. En concreto, señala cómo los déficits y problemas atribuidos a p pueden deberse al hecho de que se ha olvidado cuál es el principal objetivo de la investigación científica y, por tanto, la estadística ha dejado de ser un medio para convertirse en un fin.

 Ana Muñoz van den Eynde presentando la encuesta PICA en CIEMAT, octubre de 2014

En el número 506 de la revista Nature se publicó un artículo de Regina Nuzzo, profesora asociada de estadística en la Universidad de Gallaudet en Washington DC, del que se ha hecho eco la revista Investigación y Ciencia, la edición española de Scientific American, en su número de diciembre de 2014. En él, la autora presenta tres argumentos contra p. En primer lugar, señala que su mecánica solo permite sacar conclusiones de los datos asumiendo una hipótesis nula concreta y, por tanto, no permite trabajar a la inversa y hacer afirmaciones sobre la realidad. Además, “cuanto menos plausible sea una hipótesis, mayor es la probabilidad de que un hallazgo emocionante sea una falsa alarma, al margen del valor p”. En segundo lugar, le acusa de generar confusión, porque tiene tendencia a desviar la atención del tamaño real de un efecto. En tercer lugar, se le culpa de generar p-piratería, es decir, de jugar con los datos y probar todo lo posible hasta lograr el resultado deseado, aunque no se haga de manera intencionada.

Vamos con el primer argumento. Hay dos estrategias para poner a prueba una hipótesis: confirmación y falsación. En un primer momento los científicos apostaron claramente por la confirmación, pero desde que Popper propuso la falsación, se considera que es mejor estrategia, pues por mucha evidencia que tengamos a favor de algo, nunca podremos estar seguros de que disponemos de toda ella. En cambio, en cuanto encontremos evidencia de que es falsa, podemos rechazarla. Pongamos un ejemplo. Imaginemos dos científicos que tratan de contrastar la hipótesis de que todas las gaviotas son de color blanco. Uno de ellos sale a buscar gaviotas blancas que confirmen su hipótesis y encuentra veinte mil gaviotas, todas blancas. El otro sale a buscar gaviotas de distinto color al blanco que falsen su hipótesis y encuentra una gaviota de otro color. Claramente, el segundo consiguió su objetivo y fue más productivo. La constatación de la existencia de veinte mil gaviotas blancas no garantiza que todas sean de ese color. Sin embargo, la existencia de una sola gaviota de otro color basta para falsar la hipótesis. No obstante, no debemos olvidar que encontrar una gaviota negra puede ser una tarea mucho más difícil que recoger gaviotas blancas, si atendemos a la probabilidad del resultado (León y Montero, 1993).

El contraste de hipótesis estadísticas es la herramienta que nos permite falsar una determinada hipótesis. Y p es, precisamente, la probabilidad de equivocarnos cuando asumimos que la hipótesis es falsa a partir de los datos de la muestra. Subrayo lo de falsa porque p no dice nada acerca de la veracidad de una hipótesis ni sobre la probabilidad de encontrar un efecto determinado, que es lo que se suele pensar. Aunque pueda parecer un poco enrevesado, p solo ofrece información sobre la probabilidad de encontrar un resultado concreto asumiendo que no hay efecto. Evidentemente, no es una solución ideal. Pero, ¿es mejor tomar decisiones a ojo de buen cubero? Por otro lado, y siguiendo con la segunda parte del argumento, ¿qué sentido tiene tratar de poner a prueba hipótesis “emocionantes” y novedosas, pero que sean poco plausibles? Aunque no hay una teoría de la ciencia que cuente con apoyo unánime (Laudan et al., 1986), hay bastante acuerdo en que la ciencia es tentativa, se basa en datos empíricos y está determinada por las teorías vigentes en el momento en el que se desarrolla (Lederman et al., 2002). Con independencia de dónde empiece el proceso, el investigador necesita ir de los datos a la teoría y de la teoría a los datos. Y, por tanto, no tiene ninguna lógica poner a prueba una hipótesis improbable, sin ningún sustento teórico, solo por si acaso tenemos la suerte de encontrar un resultado “especial”. En cualquier caso, lo que es evidente es que no se puede culpar a p de la inconsistencia de los resultados que se obtengan si se decide actuar así.

En segundo lugar se acusa a p de fomentar el pensamiento confuso por “su tendencia a desviar la atención del tamaño del efecto”. Para justificar este argumento, Nuzzo recurre a un estudio de 2013, sobre una muestra de más de 19.000 personas que, según señala, “mostró que aquellas que conocieron a su cónyuge en Internet tenían menos probabilidades de divorcio (p < 0,002) y más probabilidades de gozar de una alta satisfacción marital (p < 0,001) que aquellas que lo conocieron en la vida real (fuera de Internet)”. Todo esto cuando se encontraron escasas diferencias entre ambos grupos (7,67 y 5,96 % en la tasa de divorcio, respectivamente; y 5,64 y 5,48 de media en una escala de 7 puntos para medir la satisfacción marital) (Caccioppo et al., 2013). Malo es que no se haya tenido en cuenta el tamaño del efecto, pero hay otros factores que resultan más preocupantes. En el artículo, haciendo gala de la facilidad que proporcionan las nuevas tecnologías para tener acceso a datos en los que sustentar las investigaciones, se utilizan los resultados de una encuesta realizada on-line a una muestra supuestamente representativa de ciudadanos de EEUU que hubieran contraído matrimonio entre 2005 y 2012. No obstante, en esa muestra, el 92 % de los entrevistados seguía estando casado, cuando la tasa de divorcio en ese país se sitúa en el 53 %, por lo que difícilmente se puede considerar representativa. Por otro lado, no se tienen en cuenta una serie de cuestiones estadísticas relacionadas con las pruebas utilizadas para analizar la significación estadística y que influyen de manera esencial en los resultados que se obtienen al utilizarlas. Voy a destacar dos. En primer lugar, dependen del tamaño de la muestra, de manera que si esta es grande (y recordemos que tenemos más de 19.000 participantes), la probabilidad de encontrar un resultado significativo es casi total. Para contrarrestar esa limitación, hay estadísticos adicionales. Pero hay que conocerlos y/o decidir calcularlos. En segundo lugar, es necesario que los grupos tengan un tamaño parecido, y en el trabajo analizado, el grupo que conoció a su pareja a través de internet está compuesto por 5.349 personas; el otro, por 12.253 (2,29 veces más).

Estas limitaciones no tienen nada que ver con el proceso por el que se obtiene p, ni con su significado. Los responsables son los autores del estudio, y los editores y revisores de la publicación. Que no es, ni más ni menos, que PNAS (Proceedings of the National Academy of Sciences of the United States of America), una de las revistas científicas más citadas del mundo y que solo publica investigación de la más alta calidad, según señalan ellos mismos. ¿Por qué una publicación de calidad acepta un artículo con déficits metodológicos evidentes? Se puede pensar en varias cuestiones. Como señalan en su web, PNAS publica más de 3.800 artículos al año. Por otro lado, la influencia de internet en el desarrollo de las relaciones sociales es un tema que tiene “tirón”. Por último, el primer autor es uno de los psicólogos norteamericanos de referencia en psicología social, con más de 20 publicaciones por año en revistas científicas y contribuciones de libros. Como señalan Nosek et al. (2012), el éxito profesional de un científico depende de su capacidad para publicar. Y las normas de publicación ponen el énfasis en los resultados nuevos y positivos. Cuando se incentiva la novedad frente a la replicación, no es posible identificar los fasos positivos presentes en la literatura y, por tanto, el conocimiento acumulado pierde calidad. ¿Y qué culpa tiene p de que esa sea la estrategia predominante?

Vamos con el tercer argumento de la acusación, la p-piratería. Como señalan Wong y Hodson (2009), la tecnología ha tenido un impacto notable en el diseño de la investigación científica. Antiguamente, recopilar los datos en los que sustentarla era un proceso largo y complicado. Con los nuevos avances tecnológicos, obtenerlos es fácil y rápido. Por este motivo, el diseño experimental previo no es tan necesario. O, dicho de otro modo, ya no es fundamental apoyar el trabajo de investigación en la formulación de hipótesis bien definidas, que sean las que guíen el proceso por el que recopilar las observaciones en que basar los análisis correspondientes. Como resultado de todo ello, muchos problemas se identifican mediante un proceso de prospección de datos (data mining). Ahora bien, como señalan los investigadores entrevistados por estos autores, la investigación científica necesita, sin ningún género de dudas, apoyarse en la teoría. Sin esa base, un investigador no sabe qué hacer, cómo hacerlo, o cómo interpretar los datos. Es decir, no hay investigación científica que sea independiente de la teoría. Y, precisamente por eso, a pesar de que un científico siempre aspira a anunciar algo nuevo, se hace un análisis mucho más crítico y exhaustivo cuando se obtienen resultados novedosos e inesperados, del que se aplica a los resultados esperados o en conformidad con el conocimiento que se da por válido en un momento concreto. Sin embargo, hay indicios serios de que esto está cambiando. Los críticos con el valor p le acusan de estar detrás de esa manera de proceder, pues consideran que es él quien lleva a los investigadores a optar por la estrategia de jugar con los números a ver qué sale. Y, pregunto yo de nuevo, ¿qué culpa tiene p de que un investigador decida basar sus resultados únicamente en la significación estadística, ignorando la magnitud y la importancia relativa de un efecto? La significación estadística es un paso esencial en cualquier investigación, pero que debe apoyarse siempre en la descripción y explicación de los resultados obtenidos, y en una teoría que ayude a interpretar los resultados.

Es evidente que p es un artefacto estadístico, un medio para conseguir un fin. Y, como tal, puede suscitar dudas. Pero eso no justifica que se le culpe de la mala calidad de algunos artículos. Como ocurre con toda herramienta, lo importante es el uso que se le da. Y la responsabilidad debe atribuirse a quien la usa. El nivel crítico no tiene la culpa de que el acceso fácil (y no siempre con el suficiente conocimiento de los fundamentos estadísticos) a paquetes informáticos que hacen cálculos matemáticos con gran rapidez y de forma sencilla haya hecho olvidar qué es, para qué sirve, y hasta dónde alcanza. Tampoco tiene la culpa de que la importancia de desarrollar un título impactante parezca haberse trasladado del ámbito periodístico al mundo académico; o de que lo importante sea publicar, mucho y novedoso, prestando menos atención de la deseable a la calidad de los resultados que se dan a conocer. Es decir, p no es responsable de que el medio se haya convertido en el fin. Regina Nuzzo cierra su artículo apoyándose en una cita de otro crítico del valor p, Steven N. Goodman (1999): “Los números marcan el inicio de la discusión científica, no el fin”. Y yo que creía que eso ya lo teníamos claro.

Referencias:

Cacioppo, J.T. et al. (2014), “Marital satisfaction and break-ups differ across on-line and off-line meeting venues”, PNAS 110/25: 10135-10140.

Goodman, S.N. (1999), “The P value fallacy”, Annals of Internal Medicine 130: 995-1004.

Laudan, L. et al. (1986), “Scientific change: Philosophical models and historical research”, Synthese 69: 141-223.

Lederman, N.G. et al. (2002), “Views of nature of science questionnaire: Toward valid and meaningful assessment of learners’ conceptions of nature of science”, Journal of Research in Science Teaching 39/6: 497-521.

León, O. y Montero, I. (1993), Diseño de investigaciones. Introducción a la lógica de la investigación en psicología y educación, McGraw-Hill, Madrid.

Nosek, B.A. et al. (2012), “Scientific Utopia: II. Restructuring Incentives and Practices to Promote Truth Over Publishability”, Perspectives on Psychological Science 7/6: 615-631.

Nuzzo, R. (2014), “El valor resbaladizo de p”, Investigación y Ciencia, diciembre, 14-16.

Wong, S.L. y Hodson, D. (2009), “From the Horse’s Mouth: What Scientists Say About Scientific Investigation and Knowledge”, Science Education 93: 109-130.

 

Publicación de la encuesta PICA