Tortura de datos y análisis torpes: errores con grandes bases de datos. Una conversación con el bioestadístico Frank E. Harrell, Ph. D

Noviembre 2018

Home

Ensayos Clínicos

Entrevistas

Tortura de datos y análisis torpes: errores con grandes bases de datos. Una conversación con el bioestadístico Frank E. Harrell, Ph. D (Data torture and dumb analyses: Missteps with big data. a discussion with biostatistician Frank Harrell, PhD)
Robert A. Harrington
Medscape, 6 de agosto de 2018
https://www.medscape.com/viewarticle/899986
Traducido por Medscape editado por Salud y Fármacos

Dr. Robert A. Harrington: Hola. Soy Bob Harrington de Stanford University. Hay tenemos una transmisión multimedia interesante en Medscape con un buen amigo y colega, Frank Harrell.

No hay duda de que estamos viviendo una época sin precedente en relación con la investigación biomédica. Tenemos esta increíble máquina de descubrimiento operando que nos permite medir prácticamente cualquier proceso biológico humano. Esto incluye las diversas “ómicas” (genómica, proteómica, metabolómica) y también tecnología que mide continuamente una variedad de mediciones fisiológicas, como frecuencia cardiaca, temperatura y variabilidad de la frecuencia cardiaca.

Todo esto nos ha brindado la capacidad para reunir enormes cantidades de datos sobre individuos. También nos proporciona una tremenda capacidad para analizar estos datos en formas que tal vez no habíamos utilizado antes, en parte por la nube informática y los métodos computacionales cada vez más avanzados. A muchos nos interesa el concepto de cómo interpretar esta información que se acumula continuamente e incluir aspectos como redes sociales, localización por GPS y códigos postales para adquirir conocimientos sobre la salud y la enfermedad del ser humano que va más allá de lo que hasta ahora habíamos logrado.

Es para mí un verdadero privilegio tener como invitado a mi viejo amigo y colega, Frank Harrell. Frank es profesor de bioestadística en Vanderbilt University School of Medicine. También es un asesor estadístico experto del Centro de Evaluación e Investigación de Medicamentos de la Food and Drug Administration de Estados Unidos y su grupo de bioestadística. Frank es la persona ideal con la cual tener una conversación acerca de cómo hemos llegado a este momento de la historia en la investigación biomédica. Podemos escuchar sus ideas sobre las oportunidades, los retos y los posibles obstáculos que él ve, en particular mientras hablamos sobre algunos de los nuevos métodos computacionales modernos, que incluyen aprendizaje automático, redes neuronales, y demás. Frank, gracias por acompañarme aquí en Medscape.

Frank E. Harrell: Es un verdadero placer estar aquí, Bob.

Harrington: ¿Quieres hacer algunos comentarios generales respecto a qué piensas de la enorme cantidad de datos que está ayudando a informar sobre la experiencia de salud humana y algunos retos que plantea para la comunidad científica?

Harrell: Efectivamente, es difícil saber dónde comenzar pues hay una visión de las cosas desde la perspectiva de la genómica y luego están todos estos otros campos que incluyen, como lo mencionaste, monitorización fisiológica moderna y continua, la cual creo que realmente ofrece más perspectivas que la mayor parte de los demás métodos no tienen.

Harrington: Sí, mantengámonos alejados de la genómica por ahora y hablemos del contexto más amplio de los datos.

Harrell: De acuerdo. La inmensa cantidad de datos y su rápida disponibilidad es un reto para todos, pero creo que los investigadores clínicos y algunos bioestadísticos no comprenden muy bien muchos aspectos. Una de las cosas que aprendes con el tiempo es que no necesariamente te vuelves más inteligente por trabajar en algo durante décadas y más décadas, pero sí adquieres perspectiva.

Una de las perspectivas en la que los estadísticos se hacen expertos con el tiempo es saber cuánto contenido de información es necesario para estar seguro de una conclusión sobre algo. Independientemente de que se trate de diagnosticar mejor a los pacientes, pronosticar mejor o comparar las terapias, se necesita una determinada cantidad de información para tener alguna esperanza de dar respuesta a una pregunta.

Hay una cuestión de tipo independiente en torno al sesgo, y esto realmente es un gran problema en las comparaciones de tratamientos. Aún cuando no se estén haciendo comparaciones de tratamientos, saber cuáles son las limitaciones de los datos es algo en lo que muchas personas todavía no son hábiles. Tienen esta impresión errónea de que, dada la naturaleza y la fácil disponibilidad de los datos, estos deben tener la información sepultada en sí mismos en alguna parte que permite dar respuesta a casi cualquier pregunta.

Harrell: Alguien tuiteó el otro día, y rápidamente reaccioné a ello, que consideraba que hay nuevos métodos de inferencia causal que pueden decir en tiempo real, mientras se está realizando un estudio clínico, cuáles pacientes están recibiendo el máximo beneficio del tratamiento. Sólo puntualicé que es matemáticamente imposible hacerlo. Es casi imposible hacerlo al final del estudio, pero mientras se está llevando a cabo el estudio, es realmente difícil hacerlo. Hay esta especie de insensata similitud entre la tortura de datos y la tortura humana. Sabemos que en la tortura humana (y hay mucha evidencia de esto), si se tortura a una persona para obtener información, confesará lo que quiera escuchar el torturador.

Lo mismo ocurrirá con los datos, si torturas los datos, los datos confesarán y te dirán lo que desees escuchar. Luego el investigador avanza un poco y trata de hacer uso de esto, pero no es fiable. No es más fiable con los datos de lo que lo es con la tortura de personas. Existe esta creencia de que, si se utilizan métodos modernos, de repente habrá más información en los datos que la que nunca hubo.

Se está aplicando el aprendizaje automático, sobre todo a más enfermedades raras como tipos específicos de cáncer, en los que se está tratando de descubrir quién probablemente desarrollará metástasis, o cualquier cosa que traten de predecir.

Pueden tener un número limitado de pacientes, pero es posible que tengan un número ilimitado de posibles manifestaciones, como expresión de proteína, expresión de gen y polimorfismos de un solo nucleótido [SNP], y ahora estamos escuchando todo este revuelo en torno al microbioma y todos los demás tipos de “omas”.

Si tienes un número limitado de sujetos y cuentas con decenas de miles de posibles factores predictores, no hay forma matemática de que este tipo de investigación realmente funcione. Con una excepción: si hay evidencia irrefutable que de algún modo todo el mundo lo pasó por alto y nadie la publicó antes (lo cual es improbable). Si hay una evidencia irrefutable, por ejemplo, “si una persona tiene tal característica, entonces todas tienen una enfermedad; y si no la tiene, entonces nadie tiene tal enfermedad,” puedes encontrarla, no importa qué otra cosa más se arroje en los datos. Esta simplemente no es la forma en que ocurren las cosas con la investigación en la era moderna.

Tamaño de la muestra
Harrell: He escrito un blog sobre esto desde el punto de vista de ¿cuántos sujetos se necesitarían para hacer un buen estudio sobre una sola característica del paciente y relacionar esto con algo? Se puede plantear esto lógicamente. El tamaño mismo de la muestra que se necesitaría para hacer algo complejo, como la red neural, va a ser mayor que si se hubiese seleccionado de antemano una característica y se quisiera ver cómo se relaciona ésta con el desenlace en el paciente. En la esencia de esto está estimar algo como un coeficiente de correlación. ¿Cuántos pacientes se necesitan para estimar solo un coeficiente de correlación?

La respuesta es más de 300 pacientes para estimar únicamente eso. Esto es con una sola característica muy enfocada especificada de antemano y elegible para la predicción. Si esto requiere más de 300 y publicas un resultado de aprendizaje automático complicado con menos de 100 personas que utilizaron más de 1000 características elegibles, la esperanza de que en efecto esto se sostenga es simplemente cero. Tal vez recordarás los estudios consecutivos que se hicieron hace diez años para determinar variantes que predijeran el riesgo de cáncer de mama [1,2].

Utilizaron la misma clase de cohortes de mujeres, la misma clase de detección sistemática (SNP y estudios de asociación de todo el genoma [GWAS]) y todo era similar en la configuración. En esos dos artículos, los hallazgos no tenían un solo SNP en común. Fue un ejemplo impresionante de la imposibilidad de aprender tanto basándose en tan poco.

Harrington: ¿Cuál es el camino, Frank? Ciertamente una de las oportunidades de hoy en día es la vastedad de los datos, y a veces estamos tan enamorados con la vastedad, que nos podemos perder en ella.

Hay herramientas que nos ayudan a comprender los datos, pero de alguna manera lo que me parece que dices es que de todas formas hay que aplicar los principios básicos. Sin olvidar la cuestión de que el error de tipo 1 es uno de los temas a los que estás llegando aquí en términos de la tasa de descubrimiento falso. ¿Cómo pensamos siquiera que visualizar los datos podría ser útil mientras queremos descubrir hechos? ¿Quieres comentar sobre el error de tipo 1 y la visualización de los datos, dos temas en los que has invertido mucho tiempo?

Harrell: Sí, me gustaría mencionar cosas que son casi eso.

Harrington: De acuerdo.

Harrell: La tasa de descubrimiento falso, que está relacionada con el error de tipo 1, es muy importante, pero las personas prestan demasiada poca atención a la tasa de falsos negativos. La gente está publicando cosas que están anunciando descubrimientos que apenas son publicables. Podría ser un odds ratio de 1,3 o algo, y no clínicamente predictivo de nada. Estaban descartando un gran número de características que no pasaron la prueba de detección de características, sin darse cuenta realmente de que su tasa de falsos negativos estaba por las nubes.

Hay una verdadera falta de apreciación de la fiabilidad de los descubrimientos y la confiabilidad de los no descubrimientos, sobre todo los últimos. Creo que esto realmente está frenando la investigación. Las personas están descartando cosas que tienen información, y parte del razonamiento es porque están buscando parsimonia.

Quiero decir que la parsimonia es la enemiga de la precisión predictiva. La naturaleza tiene muchas trayectorias y sistemas de respaldo genético y todo, y la parsimonia no es la forma en que funciona la naturaleza. Es la forma en que funcionan las cosas a veces en física, pero no tanto en biología.

La idea de que casi toda investigación que se ve publicada en un modo de descubrimiento es un intento de ser parco es donde hay un serio error. Mejores métodos de analizar los datos dirán, “¿Qué clase de señal hay ahí si no tratamos de comprender tal señal?” El primer paso es medir la señal que es predictiva.

¿Estás tratando de diagnosticar cáncer de colon? Si tienes datos adecuados con suficientes casos de cáncer de colon y controles, puedes comenzar a analizarlo. Tal vez encuentres que hay una señal oculta entre estos miles de variables para el valor de R² = 0,4 en predecir un diagnóstico final de cáncer de colon. Luego te contentas con publicar un artículo en que R² = 0,04. Mi conclusión de esto sería, hay un 0,36 de señal del que no tienes la menor idea porque trataste de atribuírselo a algo más. Trataste de ser parsimonioso y ahí es donde cometiste el error. Esta clase de investigación realmente es difícil de justificar. Si solamente estás recuperando un décimo de la señal a la que aspiras —sea de tipo diagnóstico o pronóstico o lo que sea— estás publicando algo que incluirás en tu curriculum vitae, cuenta para la promoción, pero nunca tendrá utilidad clínica, y rápidamente abandonas dónde estaba la señal en gran parte de lo que llamas pérdida de funciones.

Abandonaste eso y te contentaste con publicar algo que casi ni siquiera tenía señal, pero fue estadísticamente significativo. Esta es una falta de comprensión de cómo múltiples factores operan en conjunto y cuáles son las trayectorias. Simplemente veo que es un problema predominante en la investigación de imágenes, genética, proteómica y tal vez en el microbioma, respecto al cual he tenido menos experiencia.

Existe un problema diferente, y me encantaría comentarlo. Muchos investigadores no comprenden la clase de variables en las que realmente tienen que concentrarse.

Un metanálisis fantástico demostró que la historia de la investigación genética en factores de riesgo para la depresión es solo una serie de resultados conflictivos con señales débiles [3]. Integraron todo y trataron de estimar qué tanto de la depresión podía explicarse por fuerzas genéticas frente a la captación de sucesos en la vida de la persona.

¿Cuántas tragedias (por ejemplo, la muerte de un cónyuge, la muerte de un hijo) había sufrido la persona?

Demostraron que los sucesos de la vida solo se burlaban de los factores genéticos; no hubo comparación. Muchos ejercicios predictivos avanzan donde las personas realmente ya no están tomando esto en cuenta. Escuché una vez a un genetista de la University of Washington decir: “Si tuviese una opción de medir el colesterol o de saber que alguien tuviera predisposición a la hiperlipidemia, mediría el colesterol siempre”.

Harrington: En un artículo publicado más o menos el año pasado se analizaron las técnicas de aprendizaje automático [4]. Dijeron que el aprendizaje automático era mejor que el cardiólogo para predecir los eventos cardiovasculares. Luego enumeraron todas las variables que la máquina identificaba como muy predictivas. Una de las variables que fue la más importante fue “sin datos disponibles”. Esto afirma tu punto de que realmente necesitas comprender cuáles son los procesos biológicos o cuáles son los imperativos clínicos.

Frank, esto me lleva a los días del banco de datos de Duke University, en que los médicos y estadísticos hablaban acerca de lo que estaban observando que parecía tener importancia en el contexto clínico, y luego lo retomaban y formalmente lo evaluaban. Es un ejercicio que no queremos olvidar. No debería ser una caja negra. Deberíamos pensar en cuáles son las observaciones —desde el punto de vista biológico o clínico— que parecen ser importantes.

Harrell: Invertimos mucho tiempo desglosando cosas en componentes lógicos que se pudiesen comprender desde el punto de vista clínico y que fuesen muy predictivos. ¿Cuál es una buena manera de calificar la enfermedad coronaria obstructiva? ¿Cuál es una buena manera de calificar la isquemia y cuáles son las diferentes manifestaciones de la isquemia? ¿Cuáles son las diferentes manifestaciones de la insuficiencia cardiaca y cómo se integra todo esto? ¿Cómo se califica la vasculopatía periférica, etcétera? Y creamos índices para resumir cada uno de estos fenómenos.

Esto condujo a una gran estabilidad a lo largo de los años, así como a años de análisis de datos, en vez de analizar las características individuales. La interpretación clínica siempre estuvo ahí. Las personas necesitan tomar en cuenta qué es lo que tendrá sentido, será predictivo y útil en la toma de decisiones clínicas. El artículo al que te refieres puede ser el mismo que leí, en el que demostraron que, si utilizabas muchas pruebas médicas, tenías el resultado de la prueba; y si se ordenaba o no ordenaba la prueba, el aspecto que era predictivo era la conducta del médico de ordenar la prueba. El algoritmo de aprendizaje automático en ningún momento encontró que necesitaba utilizar los resultados de alguna de ellas. Esto es realmente interesante, pues cuando piensas en trasladar esto a otro contexto clínico en que los patrones de práctica de ordenamiento de pruebas son diferentes, pero tal vez el significado de los resultados de la prueba no sea tan diferente, creo que desperdiciaron la oportunidad.

Harrington: Efectivamente, estoy de acuerdo contigo. Frank, podría seguir charlando contigo todo el día sobre el aprendizaje automático y nuevas formas de pensar en los datos. La enseñanza que me queda de esto es que hay que recordar algunos principios básicos de la estadística mientras pensamos en hacer buena investigación clínica. Gracias por acompañarnos aquí en MedscapeToday.

Mi invitado el día de hoy ha sido Fran Harrell, profesor de bioestadística en la Vanderbilt University School of Medicine. Frank, gracias por acompañarnos.

Harrell: Gracias por invitarme. Verdaderamente lo disfruté, Bob.

Referencias

Wacholder S, Hartge P, Prentice R, Garcia-Closas M, y cols. Performance of common genetic variants in breast-cancer risk models. N Engl J Med. 18 Mar 2010;362:986-993. doi: 10.1056/NEJMoa0907727. PMID: 20237344.
Reeves GK, Travis RC, Green J, Bull D, y cols. Incidence of breast cancer and its subtypes in relation to individual and multiple low-penetrance genetic susceptibility loci. JAMA. 28 Jul 2010;304:426-434. doi: 10.1001/jama.2010.1042. PMID: 20664043.
Risch N, Herrell R, Lehner T, Liang KY, y cols. Interaction between the serotonin transporter gene (5-HTTLPR), stressful life events, and risk of depression: a meta-analysis. JAMA. 17 Jun 2009;301:2462-2471. doi: 10.1001/jama.2009.878. PMID: 19531786.
Weng SF, Reps J, Kai J, Garibaldi JM, Qureshi N. Can machine-learning improve cardiovascular risk prediction using routine clinical data? PLoS ONE. 4 Abr 2017;12:e0174944. doi: 10.1371/journal.pone.0174944. PMID: 28376093.

creado el 4 de Diciembre de 2020