Integridade da Ciência

Influência da familiaridade com o tema e da especificidade do prompt na fabricação de citações em pesquisas de saúde mental utilizando modelos de linguagem de grande porte: estudo experimental

(Influence of Topic Familiarity and Prompt Specificity on Citation Fabrication in Mental Health Research Using Large Language Models: Experimental Study)
J Linardon, HK Jarman, Z McClure, C Anderson, C Liu, M Messer
JMIR Ment Health 2025;12:e80371doi: 10.2196/80371. https://mental.jmir.org/2025/1/e80371/
Traduzido por Salud y Fármacos, publicado em Boletim Fármacos: Ética 2026; 4 (2)

Tags: IA para sintetizar dados, modelos de linguagem, IA e pesquisa, IA e descobrimento de medicamentos, validade da informação produzida através de IA

Resumo
Antecedentes: O uso de modelos de linguagem de grande porte (large language models ou LLM) por parte dos pesquisadores em saúde mental está aumentando, com o objetivo de melhorar a eficiência. No entanto, esses modelos podem gerar conteúdo inventado, mas plausível (alucinações). Uma forma frequente de alucinação é a produção de citações bibliográficas inventadas, que não podem ser rastreadas até chegar às publicações reais. Estudos prévios exploraram a fabricação de citações em diferentes disciplinas, mas ainda não está claro se a precisão das citações que aparecem nos resultados de LLM varia sistematicamente dependendo do tema dentro de um mesmo campo, conforme sua visibilidade pública, maturidade científica e especialização.

Objetivo: Este estudo pretende analisar a frequência e a natureza da fabricação de citações, bem como os erros bibliográficos nos resultados do GPT-4o (Omni) quando utilizados para gerar revisões bibliográficas sobre temas de saúde mental que diferem na familiaridade do público e na maturidade científica. Também avaliamos se investigar com maior especificidade (geral vs. especializada) influencia as taxas de fabricação ou precisão.

Métodos: Em junho de 2025, solicitou-se ao GPT-4o que gerasse seis revisões bibliográficas (aproximadamente 2.000 palavras; ≥20 citações) sobre três transtornos com diferentes níveis de reconhecimento público e cobertura de pesquisa: transtorno depressivo maior (alto), transtorno de compulsão alimentar (moderado) e transtorno dismórfico corporal (baixo). Cada transtorno foi revisado com dois níveis de especificidade: uma visão geral (sintomas, impacto e tratamentos) e uma revisão especializada (evidência de intervenções digitais). Todas as citações (N = 176) foram extraídas e verificadas sistematicamente por meio do Google Scholar, Scopus, PubMed, WorldCat e bases de dados das editoras. As citações foram classificadas como inventadas (sem fonte identificável), reais com erros ou totalmente precisas. Foram utilizados testes de qui-quadrado para comparar as taxas de invenção e precisão por transtorno e tipo de revisão.

Resultados: O GPT-4o gerou 176 citações para as seis revisões; 35 (19,9%) foram inventadas. Entre as 141 citações reais, 64 (45,4%) continham erros, com maior frequência envolvendo dados digitais incorretos ou inválidos. As taxas de citações inventadas diferiram significativamente conforme o transtorno (χ22 = 13,7; P = 0,001), com taxas mais altas para o transtorno de compulsão alimentar (17/60, 28%) e o transtorno dismórfico corporal (14/48, 29%) do que para o transtorno depressivo maior (4/68, 6%). Embora, no geral, não tenham sido observadas diferenças na invenção de citações conforme o tipo de revisão, análises estratificadas mostraram mais citações inventadas nas revisões especializadas em comparação com as gerais para o transtorno de compulsão alimentar (11/24, 46% frente a 6/36, 17%; P = 0,01). As taxas de precisão também variaram conforme o transtorno (χ22 = 11,6; P = 0,003), sendo mais baixas para o transtorno dismórfico corporal (20/34, 59%) e mais altas para o transtorno depressivo maior (41/64, 64%). Para alguns transtornos, as taxas de precisão variaram conforme o tipo de revisão, incluindo maior precisão nas revisões gerais sobre transtorno depressivo maior (26/34, 77% frente a 15/30, 50%; p = 0,03).

Conclusões: A fabricação de citações e os erros bibliográficos continuam sendo frequentes nos resultados gerados pelo GPT-4o, nos quais quase dois terços das citações são falsas ou imprecisas. A confiabilidade variou sistematicamente conforme a familiaridade com o transtorno e a especificidade da solicitação, com maior risco em temas de saúde mental menos visíveis ou mais especializados. Esses achados destacam a necessidade de elaborar cuidadosamente as solicitações, de que uma pessoa verifique rigorosamente todas as referências geradas pelo modelo, e de que revistas e instituições ofereçam maiores garantias para proteger a integridade da pesquisa à medida que os LLM são integrados à prática acadêmica.

creado el 28 de Mayo de 2026