Cientistas x ChatGPT: como modelos de linguagem podem distorcer a revisão de artigos

Modelos de linguagem como o GPT-4 prometem acelerar a revisão científica, mas pesquisa mostra que eles podem ser manipulados, alucinar resultados e favorecer autores famosos, colocando seriamente em risco a qualidade e a equidade da ciência publicada.

ChatGPT, pesquisa
Modelos de linguagem aceleram a triagem de artigos, mas podem ser facilmente manipulados, gerar avaliações fantasiosas e privilegiar autores de prestígio.

A inteligência artificial já virou ajudante de luxo para escrever e resumir textos, mas agora seduz editores acadêmicos com a promessa de revisar milhares de manuscritos em minutos. À primeira vista, usar grandes modelos de linguagem (LLMs) como o GPT-4 para filtrar artigos parece a solução perfeita contra a sobrecarga de revisores humanos.

Um estudo recente liderado pela Universidade Jiao Tong de Xangai expôs falhas graves nessa aposta digital, revelando que esses “robôs avaliadores” podem ser enganados, tendem a alucinar elogios e reproduzem vieses nada científicos.

A relevância do tema salta aos olhos: a revisão por pares é o alicerce do método científico, e qualquer rachadura no processo ameaça a confiabilidade dos resultados publicados, algo que impacta desde vacinas até previsões climáticas.

Ao demonstrar que apenas 5 % de revisões automatizadas manipuladas já bastariam para rebaixar 12 % dos melhores trabalhos em um grande congresso de inteligência artificial, os autores do estudo disparam um alerta que interessa a pesquisadores, agências de fomento e, em última instância, à sociedade que financia a ciência.

Quando o próprio artigo engana o robô

A primeira vulnerabilidade diz respeito à chamada manipulação explícita. Os pesquisadores injetaram, no fim de arquivos PDF, trechos elogiando o artigo em fonte branca minúscula, invisível para humanos, mas legível para o software que extrai o texto antes de enviá-lo ao LLM. Resultado: 90 % dos pontos mencionados pelo modelo vinham do texto escondido, e a nota média saltou de “publicação duvidosa” para “aceitação forte”.

ChatGPT, inteligencia artificial
Trechos ocultos em fonte branca dentro do PDF influenciam diretamente os pareceres da IA, fazendo com que modelos como o GPT-4 repitam elogios inseridos de forma invisível e elevem indevidamente a nota do artigo.

Já a chamada manipulação implícita explora recomendações recentes que incentivam autores a declarar as limitações do estudo. Ao enfatizar “fraquezas secundárias” e omitir problemas sérios, os autores conseguem que o LLM repita exatamente essas mesmas ressalvas superficiais, facilitando respostas rápidas na fase de réplica. Em ambos os casos, o sistema automatizado vira porta-voz do próprio interesse do pesquisador, sem conseguir perceber o truque.

O que pode dar errado dentro da máquina

Além de fraudes externas, os modelos carregam falhas internas que distorcem a avaliação científica:

  • Alucinações: mesmo recebendo um PDF em branco, o LLM produziu resenhas cheias de elogios à “metodologia inovadora” de um artigo inexistente.
  • Viés por tamanho: artigos mais longos receberam mais recomendações de aceitação, ainda que o acréscimo fosse de textos prolixos, não de conteúdo inédito.
  • Efeito celebridade: trocar o nome do autor por um prêmio Turing ou por uma instituição de elite aumentou em até cinco pontos-percentuais a chance de parecer “publicável”.

Esses desvios mostram que o modelo não julga apenas a qualidade dos métodos ou dos dados, mas se deixa levar por pistas superficiais, um risco que pode cristalizar desigualdades entre centros de pesquisa e inflar a literatura com trabalhos médios.

Desafios e caminhos para a ciência

No Brasil, onde revistas como a SciELO consolidaram boas práticas de transparência, a tentação de acelerar a triagem de artigos com IA já bate à porta de editoras universitárias e programas de pós-graduação pressionados por prazos. A adoção apressada, porém, pode ampliar disparidades: laboratórios com mais expertise em IA saberão driblar o sistema, enquanto grupos emergentes correm o risco de serem preteridos.

Organizações como Capes, CNPq e FAPESP podem transformar essa encruzilhada em oportunidade. Primeiro, financiando pesquisas que criem detectores de manipulação e algoritmos de “de-bias” treinados em português. Depois, exigindo que periódicos declarem abertamente quando um LLM foi usado na revisão, tanto pelo editor quanto pelo revisor humano.

Por fim, capacitar cientistas brasileiros a interpretar relatórios automatizados de forma crítica, combinando o melhor da agilidade computacional com o julgamento ético que, por enquanto, só humanos conseguem oferecer.

Se a tecnologia evoluir sob vigilância e participação ampla, o país pode não apenas proteger a integridade de sua produção científica, mas liderar soluções que também interessem ao resto do mundo.

Referência da notícia

Scientists hide messages in papers to game AI peer review. 11 de julho, 2025. Gibney, E.