Cientistas criaram teste de IA mais difícil da história – e até mesmo os melhores modelos estão falhando

Quando a IA começou a superar com facilidade os testes criados por humanos para desafiá-la, pesquisadores do mundo todo decidiram construir algo que ela realmente não conseguisse passar – e os resultados são bastante reveladores.

Pesquisadores desenvolveram um novo parâmetro de referência projetado para ir além dos testes de IA existentes, que se tornaram muito fáceis para que se possa medir o progresso de forma significativa.

Há muito tempo que os pesquisadores utilizam benchmarks padronizados para medir a capacidade real dos sistemas de Inteligência Artificial (IA).

Testes como o Massive Multitask Language Understanding (MML) foram concebidos para serem exigentes, abrangendo uma ampla gama de disciplinas acadêmicas e considerados um indicador confiável do que a IA podia e não podia fazer. O problema, porém, é que os sistemas de IA modernos evoluíram a tal ponto que esses testes já não fornecem muitas informações aos pesquisadores.

Assim, um grupo mundial de quase mil pesquisadores, de diversas áreas, da matemática e linguística à medicina e história antiga, decidiu criar algo ainda mais desafiador. O resultado é o "Humanity's Last Exam" (HLE) – uma avaliação com 2.500 questões que abrange desde matemática avançada até a tradução de antigas inscrições palmirenas, a identificação de minúsculas estruturas anatômicas em aves e a análise de características da pronúncia do hebraico bíblico.

Como as perguntas foram escolhidas

Entre os colaboradores do teste está o Dr. Tung Nguyen, professor associado de ciência da computação e engenharia na Texas A&M University, que escreveu 73 das questões disponíveis publicamente – o segundo maior número entre todos os colaboradores.

"Quando os sistemas de IA começam a ter um desempenho extremamente bom em benchmarks humanos, é tentador pensar que estão se aproximando da compreensão humana", disse ele. "Mas o HLE nos lembra que a inteligência não se resume ao reconhecimento de padrões – trata-se de profundidade, contexto e conhecimento especializado", acrescentou.

Cada questão foi testada com os principais modelos de IA antes de ser finalizada. Se algum modelo respondesse corretamente, a questão era removida. O processo de filtragem foi projetado para garantir que o exame estivesse um pouco além do que os sistemas atuais conseguem lidar de forma confiável.

Os primeiros resultados mostraram que mesmo os sistemas de IA mais avançados tiveram dificuldades com questões complexas e especializadas que exigem conhecimento aprofundado e de nível especializado.

Os primeiros resultados comprovam isso. O GPT-4o obteve 2,7%, o Claude 3.5%, o Sonnet alcançou 4,1% e o o1 da OpenAI ficou em torno de 8%. Sistemas mais recentes, incluindo o Gemini 2.1 Pro e o Claude Opus, atingiram entre 40% e 50%. Para evitar que os modelos sejam treinados com base nas perguntas antecipadamente, a maioria dos resultados é mantida em sigilo, com apenas uma parte sendo divulgada publicamente.

Nguyen afirmou que a necessidade de benchmarks confiáveis vai além do interesse acadêmico: "Sem ferramentas de avaliação precisas, formuladores de políticas, desenvolvedores e usuários correm o risco de interpretar erroneamente o que os sistemas de IA realmente podem fazer".

Ele acrescentou que os benchmarks fornecem a base para medir o progresso e identificar riscos.

Não é um aviso – é uma ferramenta de medição

Apesar do nome, os pesquisadores enfatizaram que o exame não pretende ser uma declaração de que a IA está superando a expertise humana. O objetivo é fornecer à área uma visão mais clara e honesta das áreas em que os sistemas de IA ainda apresentam deficiências e produzir um parâmetro de referência que permaneça útil à medida que os modelos continuam a evoluir.

"Esta não é uma corrida contra a IA", disse Nguyen. "É um método para entender onde esses sistemas são fortes e onde encontram dificuldades. Esse entendimento nos ajuda a construir tecnologias mais seguras e confiáveis. E, principalmente, nos lembra por que a expertise humana ainda importa".

Nguyen acrescentou que especialistas de quase todas as disciplinas contribuíram para a colaboração, e é essa amplitude de conhecimento humano, segundo ele, que torna as lacunas no desempenho da IA visíveis de maneiras que testes mais específicos não conseguem.

Referência da notícia

Don’t Panic: ‘Humanity’s Last Exam’ has begun. 25 de fevereiro, 2026. Lesley Henton.