Integridad de la Ciencia

Cómo influye la familiaridad con el tema y la especificidad de la solicitud en la fabricación de citas cuando se utilizan modelos lingüísticos amplios para hacer investigación en salud mental: estudio experimental

(Influence of Topic Familiarity and Prompt Specificity on Citation Fabrication in Mental Health Research Using Large Language Models: Experimental Study)
J. Linardon , H.K. Jarman, Z. McClure, C. Anderson, C. Liu, M. Messer
JMIR Ment Health 2025;12:e80371 doi: 10.2196/80371
https://mental.jmir.org/2025/1/e80371/ (de libre acceso en inglés)
Traducido por Salud y Fármacos, publicado en Boletín Fármacos: Ética y Derecho 2026; 29 (1)

Tags: IA para sintetizar datos, modelos de lenguaje, IA e investigación, IA y descubrimiento de medicamentos, validez de la información producida a través de IA

Resumen
Antecedentes: El uso de modelos de lenguaje amplio (large language models o LLM) por parte de los investigadores en salud mental está aumentando, con el objetivo de mejorar la eficiencia. Sin embargo, estos modelos pueden generar contenido inventado pero plausible (alucinaciones). Una forma frecuente de alucinación es la producción de citas bibliográficas inventadas, que no se pueden rastrear para llegar a las publicaciones reales. Estudios previos han explorado la fabricación de citas en diferentes disciplinas, pero queda por aclarar si la precisión de las citas que aparecen en los resultados de LLM varía sistemáticamente dependiendo del tema dentro de un mismo campo, según su visibilidad pública, madurez científica y especialización.

Objetivo: Este estudio pretende analizar la frecuencia y la naturaleza de la fabricación de citas, así como los errores bibliográficos en los resultados de GPT-4o (Omni) cuando se utilizan para generan revisiones bibliográficas sobre temas de salud mental que difieren en la familiaridad del público y la madurez científica. También evaluamos si indagar con mayor especificidad (general vs. especializada) influye en las tasas de fabricación o precisión.

Métodos: En junio de 2025, se solicitó a GPT-4o que generara seis revisiones bibliográficas (aproximadamente 2.000 palabras; ≥20 citas) sobre tres trastornos con diferentes niveles de reconocimiento público y cobertura de la investigación: trastorno depresivo mayor (alto), trastorno por atracón (moderado) y trastorno dismórfico corporal (bajo). Cada trastorno se revisó con dos niveles de especificidad: una visión general (síntomas, impacto y tratamientos) y una revisión especializada (evidencia de intervenciones digitales). Se extrajeron todas las citas (N = 176) y se verificaron sistemáticamente mediante Google Scholar, Scopus, PubMed, WorldCat y bases de datos de las casas editoriales. Las citas se clasificaron como inventadas (sin fuente identificable), reales con errores o totalmente precisas. Se utilizaron pruebas de chi-cuadrado para comparar las tasas de invención y precisión por trastorno y tipo de revisión.

Resultados: GPT-4o generó 176 citas para las seis revisiones; 35 (19,9%) fueron inventadas. Entre las 141 citas reales, 64 (45,4%) contenían errores, con mayor frecuencia identificaron datos digitales incorrectos o no válidos. Las tasas de citas inventadas difirieron significativamente según el trastorno (χ22 = 13,7; P = 0,001), con tasas más altas para el trastorno por atracón (17/60, 28%) y el trastorno dismórfico corporal (14/48, 29%) que para el trastorno depresivo mayor (4/68, 6%). Si bien en general no hubo diferencias en la invención de citas según el tipo de revisión, los análisis estratificados mostraron más citas inventadas en el caso de las revisiones especializadas frente a las generales para el trastorno por atracón (11/24, 46% frente a 6/36, 17%; P = 0,01). Las tasas de precisión también variaron según el trastorno (χ22 = 11,6; P = 0,003), siendo las más bajas para el trastorno dismórfico corporal (20/34, 59%) y las más altas para el trastorno depresivo mayor (41/64, 64%). Para algunos trastornos, las tasas de precisión variaron según el tipo de revisión, incluyendo una mayor precisión en las revisiones generales sobre el trastorno depresivo mayor (26/34, 77% frente a 15/30, 50%; p = 0,03).

Conclusiones: La falsificación de citas y los errores bibliográficos siguen siendo frecuentes en los resultados que arroja GPT-4o, donde casi dos tercios de las citas son falsas o inexactas. La fiabilidad varió sistemáticamente según la familiaridad con el trastorno y la especificidad de la solicitud, con un mayor riesgo para los temas de salud mental menos visibles o especializados. Estos hallazgos resaltan la necesidad de diseñar las solicitudes cuidadosamente, de que una persona verifique rigurosamente todas las referencias generadas por el modelo, y de que las revistas e instituciones ofrezcan mayores garantías para proteger la integridad de la investigación a medida que los LLM se integran en la práctica académica.

creado el 30 de Marzo de 2026