Integridad de la Ciencia

La integridad en la investigación en la era de la inteligencia artificial y los macrodatos

(Research Integrity in an Era of AI and Massive Amounts of Data)
Howard Bauchner, Frederick P Rivara
Sensible Medicine, 3 de diciembre de 2025
https://www.sensible-med.com/p/research-integrity-in-an-era-of-ai
Traducido por Salud y Fármacos, publicado por Boletín Fármacos: Ética y Derecho, 2026; 29 (2)

Tags: la inteligencia artificial y la medicina, buenas prácticas de investigación, usos de la IA en la medicina académica, replicabilidad de la investigación, reproducibilidad de la investigación, ciencia abierta

El reto de garantizar la integridad en la investigación biomédica es enorme. Los NIH discuten esta cuestión en su publicación “Leading In Gold Standard Science – An NIH Implementation Plan” (“Liderando en la ciencia de referencia: un plan de implementación de los NIH”), pero, en los últimos años, la concienciación y las soluciones propuestas han ido apareciendo con mayor frecuencia en la literatura científica. Los doctores Bauchner y Rivara han publicado recientemente dos artículos (en la literatura médica tradicional) en los que identifican los retos más apremiantes y sugieren dónde podrían estar las soluciones [1, 2].

En este artículo profundizan en los temas tratados en aquellos artículos y ofrecen más detalles sobre las soluciones. Me parece especialmente instructivo el análisis sobre la replicabilidad y la reproducibilidad de la investigación. Este artículo es un poco más extenso de lo habitual, pero me ha parecido que merecía ese espacio.

Adam Cifu

En la última década, ha habido muchos cambios en todo lo relacionado con la integridad en la investigación. Hoy en día hay una cantidad enorme de datos disponibles, provenientes de historias clínicas electrónicas, grandes estudios de cohortes y acuerdos de intercambio de datos. La inteligencia artificial está ahora muy presente en la medicina, se utiliza en el descubrimiento científico, el análisis, e incluso en la redacción de manuscritos. Si a esto le sumamos las consecuencias no intencionadas del acceso abierto y el aumento de las revistas depredadoras, mantener la integridad en la investigación es cada vez más difícil. De hecho, el aumento en el número de retractaciones, la evidencia sobre el dragado de datos y la politización de la evidencia han contribuido al escepticismo del público respecto a la ciencia [3-5].

La integridad en la investigación es un concepto amplio y “se refiere a todos los factores que sustentan las buenas prácticas de investigación y promueven la confianza en el proceso de investigación” [6]. Incluye los conceptos de honestidad, transparencia, responsabilidad, respeto y rigor. También es importante comprender la mala práctica en la investigación y en la ciencia. La mala práctica en la investigación se define habitualmente como la fabricación, la falsificación y el plagio, y es responsabilidad de los autores. La mala práctica científica es un término más amplio que abarca la mala práctica en la investigación, pero que también incluye cuestiones como una revisión por pares inadecuada, que ha resultado en miles de retractaciones, conflictos de intereses no declarados, la falta de registro de ensayos clínicos aleatorizados, disputas sobre la autoría e incumplimiento de la obligación de publicar los resultados de un ensayo clínico aleatorizado. A diferencia de la mala práctica en la investigación, que afecta específicamente a los autores, la revisión por pares inadecuada es responsabilidad del editor. En cuanto a otras cuestiones, como los conflictos de intereses no declarados o las disputas sobre la autoría, pueden surgir diferencias de opinión, y a menudo se necesita la intervención de terceros para resolverlas.

Dada la importancia de mantener la integridad de la investigación en un entorno en que el público se enfrenta a la desinformación y a la información errónea, y parece tener menos confianza en la ciencia, las siguientes recomendaciones pueden resultar útiles para respaldar la integridad en la investigación.

Los estudios clínicos observacionales cuyo objetivo sea demostrar una asociación causal entre una exposición y un resultado, como los estudios que emulan ensayos clínicos, se deben registrar antes de la recopilación de datos. Al igual que con los ensayos clínicos aleatorizados; su registro impedirá el dragado de datos y contribuirá a la reproducibilidad de los estudios.

La IA debe ayudar a los seres humanos en la revisión por pares inicial. Están surgiendo datos que indican que la IA es eficaz y potencialmente superior a la revisión por pares realizada por seres humanos [7]. Más concretamente, una publicación reciente sugiere que la IA puede evaluar la adherencia a las guías CONSORT para redactar los resultados [8]. La IA debería ser un complemento de la revisión por pares realizada por seres humanos, evaluando el registro de los ensayos clínicos aleatorizados y los metaanálisis, así como, potencialmente, la adherencia a las múltiples guías para la redacción de artículos como CONSORT, PRISMA y STROBE, además de revisar los métodos y las estadísticas. El tiempo dirá si la IA será capaz de verificar la precisión de las referencias, detectar la manipulación de imágenes y ofrecer una opinión sobre su originalidad. Hay que abordar las preocupaciones relacionadas con la confidencialidad de los datos.

La replicabilidad y la reproducibilidad son cuestiones complejas, y no se ha establecido un consenso general sobre su significado. Por ejemplo, Nosek y Errington rechazan la definición tradicional de replicabilidad, repetir un experimento y obtener los mismos resultados, y, en su lugar, creen que “la replicabilidad es un estudio en el que cualquier resultado se consideraría evidencia diagnóstica sobre una afirmación de una investigación previa” [9]. Recientemente, los NIH definieron ambos conceptos [10]:
La replicabilidad es “la capacidad de realizar el mismo experimento o estudio utilizando los mismos métodos y condiciones para lograr el mismo resultado”.

La reproducibilidad es “la capacidad de investigadores independientes para poner a prueba una hipótesis mediante múltiples métodos, y obtener consistentemente resultados que la confirmen o la refuten, garantizando que los hallazgos sean generalizables y sólidos desde diferentes acercamientos”.

Hay que hacer una distinción entre la ciencia de laboratorio y la investigación clínica. En la ciencia de laboratorio, el objetivo es garantizar que, si se repite el mismo experimento, se obtendrán los mismos resultados. En la investigación clínica, esto es diferente y más complejo. Debido a la enorme cantidad de datos de los que se dispone actualmente, y a la infinidad de formas en que se pueden realizar los análisis y codificar las variables, puede que no sea posible obtener resultados idénticos o similares, a menos que un investigador cuente con el mismo conjunto de datos y utilice el mismo enfoque analítico.

Esto se ha resaltado recientemente en dos manuscritos diferentes. Wang y sus colegas llevaron a cabo una revisión sistemática de artículos que informaban sobre la relación entre la carne roja y la mortalidad, y en las 15 publicaciones que incluían 24 cohortes diferentes identificaron 70 enfoques analíticos diferentes [11]. Posteriormente, utilizaron el análisis de la curva de especificación, un enfoque analítico que identifica y calcula todas las especificaciones razonables para una pregunta de investigación, e identificaron 1.208 acercamientos analíticos. Al aplicar el método al conjunto de datos de la NHANES (Encuesta Nacional de Examen de Salud y Nutrición o National Health and Nutrition Examination Survey), 435 análisis arrojaron un hazard ratio superior a 1 (lo que implica un aumento de la mortalidad) y 773 análisis arrojaron un hazard ratio inferior a 1.

En un estudio similar, Silberzahn pidió a 29 equipos que analizaran si era más probable que los árbitros de fútbol mostraran tarjetas rojas a los jugadores de piel oscura en comparación con los de piel clara [12]. Veinte equipos encontraron dicha relación y nueve equipos no. Los análisis de distribución de las variables incluyeron modelos lineales, logísticos y de Poisson; el número de covariables osciló entre 0 y 7; y el enfoque analítico incluyó, entre otros, la regresión logística, la regresión logística bayesiana y la regresión Tobit.

Los artículos de Wang y Silberzahn ponen de relieve la enorme variabilidad en los resultados de los estudios observacionales en función de las numerosas hipótesis formuladas y de los enfoques analíticos adoptados.

Entonces, ¿en dónde nos deja esto con respecto a la replicabilidad y la reproducibilidad? Existe un amplio consenso en que son conceptos importantes, pero no está claro cómo ponerlos en práctica ni cómo garantizar su credibilidad. Por ejemplo, de los millones de experimentos que se publican cada año, ¿cuáles deberían replicarse? ¿Debería ser aleatorio, o deberían ser los “expertos” quienes determinen cuáles son los más importantes? Si alguien repite un experimento de laboratorio o tiene acceso a los datos clínicos y al enfoque analítico, pero no puede obtener el mismo resultado, ¿qué ocurre entonces?

Dado que la abrumadora mayoría de la evidencia indica que no existe relación entre las vacunas y el autismo, si un nuevo estudio encuentra tal relación, ¿qué debemos creer? Hacer públicos los datos ayudará, pero corresponde a los investigadores dejar clara su intención de repetir el experimento o volver a analizar los datos. En la investigación clínica, si se utilizan datos similares, Wang y Silberzahn nos dicen que los resultados bien podrían ser diferentes. Por último, las recompensas por la replicabilidad y la reproducibilidad, incluyendo la financiación y el reconocimiento académico, han empezado a surgir. Este tipo de investigación no ganará fuerza sin esos incentivos.
Las revistas no deberían publicar ensayos clínicos aleatorizados ni metaanálisis que no se han registrado antes de iniciar la recopilación de datos. Comprobar si estos estudios se han registrado y si se están publicando de acuerdo con dicho registro supone un reto para todas las revistas, especialmente para aquellas que cuentan con recursos limitados. En los próximos años, la inteligencia artificial facilitará esta tarea. Si las revistas publican dichos informes, deberían insistir en que los autores aclaren por qué no se registró el estudio.

Dado que los organismos de financiación elaboran políticas en materia de ética de la investigación, deben hacer cumplir dichas políticas. Por ejemplo, los NIH han sido laxos en garantizar que los resultados de los ensayos clínicos aleatorizados que financian se publiquen en clinicaltrials.gov. Hay que asegurar la adherencia a su nueva política que exige que se compartan los datos en los que se sustentan las publicaciones.

Se llevan a cabo muchos estudios con el fin de generar hipótesis; de hecho, esto ha formado parte del proceso científico durante siglos. Es hora de ser más precisos en cuanto a este proceso, especialmente en la investigación que requiere la participación de seres humanos.
Los estudios para generar hipótesis se deberían identificar como tales, por ejemplo, en la conclusión del resumen. Esto podría ayudar a los periodistas especializados en salud y al público en general a comprender mejor el proceso científico.

Durante décadas, personas y grupos se han centrado en la integridad de la investigación. Por ejemplo, los investigadores revisan los manuscritos, prestando especial atención a la manipulación de imágenes.

Retraction Watch ha rastreado el número de retractaciones y ha estudiado y ofrecido opiniones sobre diversos aspectos de la publicación científica (https://retractionwatch.com/).

El Centro para la Ciencia Abierta (Center for Open Science) se ha comprometido a mejorar “la transparencia, la integridad y la reproducibilidad de la investigación” [13].

PubPeer permite que se hagan comentarios sobre los informes de investigación tras su publicación y, a menudo, ha sido el lugar donde han surgido preguntas sobre la manipulación de imágenes o la falsificación de datos [14].

Más recientemente, los NIH, la mayor fuente de financiación de la investigación biomédica, resumieron nueve principios para la investigación científica de referencia, reconociendo los esfuerzos realizados en el pasado y destacando aquellos que se van a instaurar [15].

Mantener la integridad en la investigación es más difícil que nunca. Es muy poco probable que los seres humanos puedan realizar esta tarea por sí solos, sobre todo teniendo en cuenta que cada año se publican más de tres millones de manuscritos (y muchos más son rechazados). El volumen de trabajo científico que se genera ha superado la capacidad humana para llevar a cabo todas las revisiones por pares. Es hora de adoptar un enfoque más integral: mayor claridad en los objetivos de la investigación, es decir, el registro de los estudios de cohortes observacionales, la adherencia a las guías de presentación de informes y la revisión por pares realizada por humanos y por inteligencia artificial.

El Dr. Howard Bauchner es profesor de Pediatría y Salud Pública en la Facultad de Medicina Chobanian & Avedisian de la Universidad de Boston. También es profesor visitante en la Universidad Nacional de Singapur. Además, el Dr. Bauchner fue jefe de redacción de JAMA y de la JAMA Network, así como de la revista Archives of Desease in Childhood (Registros de enfermedades infantiles).

El Dr. Rivara es profesor de Pediatría y profesor adjunto de Epidemiología en la Universidad de Washington. Fue exjefe de redacción de JAMA Pediatrics (2000-2017) y de JAMA Network Open (2018-2024). Sigue ejerciendo actívamente como médico, mentor e investigador.

Referencias

Bauchner, H. & Rivara, F. P. Gold standard research—reflections on the NIH announcement. Oxford Academic, 10 de octubre de 2025. https://academic.oup.com/healthaffairsscholar/article/3/10/qxaf191/8276634?login=false
Bauchner, H. & Rivara, F. P. Massive amounts of data: more publications, better science? Annals of Internal Medicine. 25 de noviembre de 2025; 179(1), 125–126. https://doi.org/10.7326/annals-25-03424
Van Noorden, R. More than 10,000 research papers were retracted in 2023, a new record. Nature, 12 de diciembre de 2023; 624(7992), 479–481. https://doi.org/10.1038/d41586-023-03974-8
Spick, M., Onoja, A., Harrison, C., et al. Quantifying new threats to health and biomedical literature integrity from rapidly scaled publications and problematic research. MedRxiv, 9 de julio de 2025. https://www.medrxiv.org/content/10.1101/2025.07.07.25331008v1
Bauchner, H. & Ioannidis, J. P. A. The subjective interpretation of the medical evidence. JAMA Health Forum, 29 de marzo de 2024. https://jamanetwork.com/journals/jama-health-forum/fullarticle/2816950
What is Research Integrity? UK Research Integrity Office. (n.d.). https://ukrio.org/research-integrity/what-is-research-integrity/
Bauchner, H. & Rivara, F. P. The challenges and future of peer review. Critical Care Medicine, junio de 2025. https://journals.lww.com/ccmjournal/citation/2025/06000/the_challenges_and_future_of_peer_review.15.aspx
Wrightson, J. G., Blazey, P., Khan, K. M., et al. GPT for RCTs? Using AI to determine adherence to clinical trial reporting guidelines. BMJ Open, 18 de marzo de 2025. https://bmjopen.bmj.com/content/bmjopen/15/3/e088735.full.pdf
Nosek, B. A. & Errington, T. M. What is replication? PLOS Biology, 27 de marzo de 2020. https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3000691
Leading In Gold Standard Science. An NIH implementation Plan. National Institutes of Health. 22 de agosto de 2025. https://www.nih.gov/sites/default/files/2025-08/2025-gss.pdf
Wang, Y., Pitre, T., Wallach, J. D., et al. Grilling the data: application of specification curve analysis to red meat and all-cause mortality. Abril de 2024. https://www.jclinepi.com/article/S0895-4356(24)00033-7/fulltext
Silberzahn, R., Uhlmann, E. L., Nosek, B. A., et al. (2018). Many analysts, one data set: making transparent how variations in analytic choices affect results. Advances in methods and practices in psychological science. 23 de agosto de 2018; 1(3), 337–356. https://doi.org/10.1177/2515245917747646
Center for Open Science. (n.d.). https://www.cos.io/
PubPeer | Home. (n.d.). https://pubpeer.com/
Leading in gold standard science – An NIH implementation plan. National Institutes of Health. 22 de agosto de 2025. https://www.nih.gov/sites/default/files/2025-08/2025-gss.pdf

creado el 19 de Junio de 2026