P-HACKING: ¿CÓMO HACER TRAMPA MODIFICANDO EL P-VALOR?

Diego Alejandro Parra Álvarez
Subdirector de Contenido
Estudiante de Economía
Universidad de los Andes

La ley de Goodhart enuncia: “cuando la medición se convierte en un objetivo, deja de ser una buena medición”. Hace referencia a investigadores que intentan anticipar los efectos de una política y manipulan los datos para obtener los resultados deseados. Según Thomas (2009), encuestas realizadas entre 1986 y 2005 revelan que un 2% de los científicos encuestados admiten haber fabricado, falsificado o modificado sus datos y resultados. Por otro lado, cuando se les cuestiona por la forma de actuar de sus colegas, alrededor del 14% revela conocer casos de manipulación y modificación de datos.

En econometría, el p-valor es la herramienta más utilizada para verificar si un resultado es estadísticamente significativo. Se define como la probabilidad de observar el valor de un estadístico tan extremo como el que se encontró, condicionado a que la hipótesis nula sea verdadera (Wooldridge, 2009). En otras palabras, es una medida de la probabilidad de obtener el resultado sobre el que se realiza la prueba, suponiendo que la hipótesis nula sea cierta. En ese sentido, el p-valor da razón de la fortaleza o la debilidad de la evidencia empírica contra la hipótesis nula. Ahora bien, lo que no es evidente en publicaciones académicas, es cuándo el investigador ha modificado sus datos para obtener un p-valor deseado. El p-hacking se refiere a la práctica de manipular los datos hasta que el resultado pase el umbral del error estadístico (Sosa, 2015). De hecho, Charpentier (2015) enumera los seis métodos más utilizados para modificar el p-valor y manipular los resultados de una investigación:

P-hacking: ¿cómo hacer trampa modificando el p-valor?

1.      Dejar de obtener datos una vez se consigue un p-valor < 0,05.

2.      Analizar distintos tipos de medición, pero solo reportar aquellos para los cuales el p-valor < 0,05.

3.      Obtener y analizar diferentes condiciones en el experimento, pero solo reportar aquellos con un p-valor < 0,05.

4.      Utilizar covariables hasta obtener un p-valor < 0,05.

5.      Excluir datos hasta obtener un p-valor < 0,05.

6.      Transformar los datos hasta obtener un p-valor < 0,05.

Nota: se asume un nivel de significancia del 5%. Es decir, la probabilidad de rechazar la hipótesis nula cuando esta es verdadera es igual al 5%.

Fuente: Charpentier (2015).

La práctica del p-hacking es más frecuente de lo que parece. Recientemente la revista Basic and Applied Social Psychology prohibió el uso del p-valor en sus artículos (Sosa, 2015). Se argumentó que a través de la prohibición del p-valor se podrían eliminar prácticas tramposas de quienes manipulan los datos hasta obtener los resultados deseados, forzando a que los investigadores presenten mejor evidencia para dar sustento a sus resultados. Por otro lado, se critica de la medida tomada por la revista que lo problemático es el uso y no el abuso del p-valor, además de que la ciencia es el último lugar donde se deberían prohibir prácticas (Sosa, 2015).

Más aún, motivados por el p-hacking, la American Statistical Association (2016) publicó una serie de principios para el correcto uso e interpretación del p-valor. Entre ellos, se especifica que conclusiones científicas y decisiones políticas no deben basarse únicamente en el hecho de que el p-valor supere un umbral especificado (ASA, 2016). De igual forma, se sostiene que el p-valor no mide el tamaño de un efecto o la importancia de un resultado, por lo que no es una medida apropiada de la evidencia de una hipótesis.

Dicho lo anterior, ¿por qué debe ser importante la discusión alrededor de la práctica del p-hacking? Las ciencias no experimentales como la economía son proclives a este tipo de prácticas (Sosa, 2015). En ese sentido, importantes decisiones de política pueden estar motivadas por modelos erróneos cuyos datos fueron manipulados para obtener un resultado particular. De nuevo, haciendo referencia a la ley de Goodhart, si bien los datos y el uso del análisis estadístico son condiciones necesarias para el diseño, la implementación y la evaluación de una política, no se puede dejar a un lado el discernimiento ético de un investigador. De esta manera, políticas que no son costo-efectivas podrían llegar a implementarse sin una adecuada valoración de sus efectos potenciales. Lo anterior resalta la importancia de fortalecer la evidencia que proveen investigadores en sus publicaciones, así como invita a un análisis riguroso y estricto de sus principales resultados.

 

REFERENCIAS BIBLIOGRÁFICAS

American Statistical Association. (2016). Provides Principles to Improve the Conduct and Interpretation of Quantitative Science. 732 North Washington Street, Alexandria, VA. [en línea], disponible en: https://www.amstat.org/asa/files/pdfs/P-ValueStatement.pdf

Charpentier, A. (2015). P-Hacking, or cheating on a p-value. Freakonometrics. Open Edition. [en línea], disponible en: http://freakonometrics.hypotheses.org/19817

Thomas, B. (2009). Study shows many scientists manipulate results. Institute for Creation Research. [en línea], disponible en: http://www.icr.org/article/study-shows-many-scientists-manipulate/

Sosa, W. (2015). Las encuestas políticas truchas y el club de los economistas que “p-hackean”. La Nación. [en línea], disponible en: http://www.lanacion.com.ar/1841382-las-encuestas-politicas-truchas-y-el-club-de-los-economistas-que-p-hackean

Wooldridge, J. (2009). Introducción a la Econometría. Un enfoque moderno. 4ª Edición. Cengage Learning.