Nuevas pautas para informar los resultados estadísticos en la NEJM

Noviembre 2019

Inicio

Investigaciones

Nuevas pautas para informar los resultados estadísticos en la NEJM (New guidelines for statistical reporting in the Journal)
David Harrington, Ralph B. D’Agostino, Constantine Gatsonis, Joseph W. Hogan, David J. Hunter et al
N Engl J Med 2019; 381:285-286 july 18, 2019
DOI: 10.1056/NEJMe1906559
https://www.nejm.org/doi/full/10.1056/NEJMe1906559?query=featured_home
Traducido por Salud y Fármacos

Algunos lectores de la New England Journal of Medicine pueden haber notado que durante el último año fuimos más parsimoniosos al informar los valores de P en nuestros artículos de investigación. Por ejemplo, en noviembre de 2018, publicamos dos informes del ensayo de Vitamina D y Omega-3 (VITAL) [1,2], un ensayo aleatorizado factorial dos por dos, controlado con placebo, para evaluar si la vitamina D o los ácidos grasos n-3 (también conocidos como omega-3) previenen enfermedades cardiovasculares o cáncer. Para la parte n − 3 del ensayo, Manson et al. informaron dos resultados primarios pre-especificados y 22 resultados pre-especificados y otros resultados secundarios, lo que no es infrecuente en estudios aleatorios u observacionales grandes y costosos. Los ácidos grasos n-3 no redujeron significativamente la tasa de resultado cardiovascular primario ni de los tratamientos contra el cáncer. Si se informaran como hallazgos independientes, los valores P para dos de los resultados secundarios habrían sido inferiores a 0,05; sin embargo, el artículo informó sólo las razones de riesgo y los intervalos de confianza del impacto de la intervención en esos resultados secundarios, según las pautas recientemente implementadas por la revista que limitan el uso de valores de P para las comparaciones secundarias y de otro tipo.

Ahora hemos aclarado, expandido y refinado nuestras guías estadísticas para los autores, se pueden leer en una nueva pestaña, y cubren tanto los ensayos clínicos como los estudios observacionales. Las nuevas pautas discuten muchos aspectos de la presentación de informes de estudios en la revista, incluyendo el requisito de reemplazar los valores de la P con estimaciones del efecto o asociación e intervalos de confianza del 95% cuando ni el protocolo ni el plan de análisis estadístico han especificado los métodos utilizados para ajustar la multiplicidad. Los editores de revistas y consultores estadísticos están cada vez más preocupados por el uso excesivo y la interpretación errónea de las pruebas de significancia y los valores P en la literatura médica. Al igual que tienen puntos fuertes, los valores de P están sujetos a debilidades inherentes, tal como se resume en publicaciones recientes de la Asociación Americana de Estadística (American Statistical Association) [3,4].

Los valores P indican cuán incompatibles pueden ser los datos observados con una hipótesis nula; la “P <0,05” implica que un efecto de tratamiento o asociación de exposición mayor al observado ocurriría menos del 5% de las veces, si la hipótesis nula es que no hay ningún efecto o asociación y suponiendo que no haya factores de confusión. La probabilidad de concluir que la hipótesis nula es falsa cuando de hecho es cierta (error tipo I en términos estadísticos) es inferior al 5%. Cuando se informan valores de P para múltiples resultados sin ajustar por multiplicidad, la probabilidad de declarar una diferencia de tratamiento cuando no existe ninguna puede ser muy superior al 5%. Cuando se realizan 10 pruebas, la probabilidad de que al menos una de las 10 tenga un valor de P < 0,05 puede ser tan alta como 40% cuando la hipótesis nula de que no hay diferencia es cierta. Incluso cuando no hay que ajustar por multiplicidad, los valores de P no representan la probabilidad de que la hipótesis nula sea falsa: P <0,05 no implica que la probabilidad de la hipótesis nula sea inferior al 5%. Debido a que los valores de P no proporcionan información sobre la variabilidad de una asociación estimada (su error estándar), los valores P no significativos no distinguen entre las diferencias de grupo que son insignificantes y las diferencias de grupo que no son informativas debido a los grandes errores estándar. Los valores P no aportan información sobre el tamaño de un efecto o una asociación.

El uso de valores de P para resumir la evidencia en un estudio requiere, por un lado, umbrales que tengan una fuerte justificación teórica y empírica y, por otro lado, que se preste atención adecuada al error que puede resultar de la interpretación acrítica de inferencias múltiples [5]. Esta inflación debido a comparaciones múltiples también puede ocurrir cuando los investigadores han realizado comparaciones, pero no se describen en el manuscrito. Hay una gran variedad de métodos disponibles para ajustar las comparaciones múltiples y se pueden usar para controlar la probabilidad de error tipo I en un análisis cuando se especifica en el diseño de un estudio [6,7]. Finalmente, la noción de que un tratamiento es efectivo para un resultado particular si la P <0,05, e ineficaz si no se alcanza ese umbral es una visión reduccionista de la medicina que no siempre refleja la realidad.

A pesar de las dificultades que esto plantea, los valores de P siguen teniendo un papel importante en la investigación médica, y no creemos que los valores P y las pruebas de significancia deban eliminarse por completo. Un estudio aleatorio u observacional bien diseñado tendrá una hipótesis primaria y un método de análisis pre-especificado, y el nivel de significancia de ese análisis es un indicador confiable de la medida en que los datos observados contradicen una hipótesis nula de no asociación entre una intervención o una exposición y una respuesta. Los médicos y las agencias reguladoras deben tomar decisiones sobre qué tratamiento usar o permitir que se comercialicen, y los valores P interpretados utilizando umbrales calculados de manera confiable y sujetos a ajustes apropiados juegan un papel en esas decisiones.

Las políticas revisadas de la revista sobre los valores de P se basan en tres premisas: es importante adherirse a un plan de análisis pre-especificado, si existe; el uso de umbrales estadísticos para reclamar un efecto o asociación debe limitarse a los análisis para los cuales el plan de análisis describió un método para controlar el error tipo I; y la evidencia sobre los beneficios y daños de un tratamiento o exposición debería incluir tanto las estimaciones como sus márgenes de error.

Reconocemos que nuestras nuevas pautas pueden presentar desafíos para su uso e interpretación, especialmente para los autores y lectores que están acostumbrados a pensar en los valores P o en los intervalos de confianza como indicador de una conclusión o afirmación. También entendemos que los resultados informados en un manuscrito enviado hoy a la revista pueden corresponder a un ensayo diseñado hace una década. Estamos dispuestos a trabajar con los autores para informar adecuadamente los resultados.

Finalmente, las pautas actuales se limitan a los estudios con un diseño y análisis de frecuencia tradicional, ya que coincide con la gran mayoría de los manuscritos enviados a la revista. No queremos decir que estos sean los únicos diseños y análisis aceptables. La revista ha publicado muchos estudios con diseños y análisis bayesianos [8-10] y espera ver más ensayos de este tipo en el futuro. Cuando sea apropiado, nuestras pautas se ampliarán para incluir las mejores prácticas para informar los ensayos con diseños bayesianos y otros.

References

Manson JE, Cook NR, Lee I-M, et al. Vitamin D supplements and prevention of cancer and cardiovascular disease. N Engl J Med 2019;380:33-44. Free Full Text
Manson JE, Cook NR, Lee I-M, et al. Marine n−3 fatty acids and prevention of cardiovascular disease and cancer. N Engl J Med 2019;380:23-32. Free Full Text
Wasserstein RL, Lazar NA. The ASA’s statement on p-values: context, process, and purpose. Am Stat 2016;70:129-133.
Wasserstein RL, Schirm AL, Lazar NA. Moving to a world beyond “p<0.05.” Am Stat 2019;73:Suppl 1:1-19.
National Academies of Sciences, Engineering, and Medicine. Reproducibility and replicability in science. Washington, DC: National Academies Press, 2019.
Dmitrienko A, Bretz F, Westfall PH, et al. Multiple testing methodology. In: Dmitrienko A, Tamhane AC, Bretz F, eds. Multiple testing problems in pharmaceutical statistics. New York: Chapman and Hall/CRC Press, 2009:35-98.
Dmitrienko A, D’Agostino RB Sr. Multiplicity considerations in clinical trials. N Engl J Med 2018;378:2115-2122.
Rugo HS, Olopade OI, DeMichele A, et al. Adaptive randomization of veliparib–carboplatin treatment in breast cancer. N Engl J Med 2016;375:23-34. Free Full Text
Park JW, Liu MC, Yee D, et al. Adaptive randomization of neratinib in early breast cancer. N Engl J Med 2016;375:11-22. Free Full Text
Popma JJ, Deeb GM, Yakubov SJ, et al. Transcatheter aortic-valve replacement with a self-expanding valve in low-risk patients. N Engl J Med 2019;380:1706-1715.

creado el 4 de Diciembre de 2020