Cientistas criaram teste de IA mais difícil da história – e até mesmo os melhores modelos estão falhando
Quando a IA começou a superar com facilidade os testes criados por humanos para desafiá-la, pesquisadores do mundo todo decidiram construir algo que ela realmente não conseguisse passar – e os resultados são bastante reveladores.

Há muito tempo que os pesquisadores utilizam benchmarks padronizados para medir a capacidade real dos sistemas de Inteligência Artificial (IA).
Testes como o Massive Multitask Language Understanding (MML) foram concebidos para serem exigentes, abrangendo uma ampla gama de disciplinas acadêmicas e considerados um indicador confiável do que a IA podia e não podia fazer. O problema, porém, é que os sistemas de IA modernos evoluíram a tal ponto que esses testes já não fornecem muitas informações aos pesquisadores.
Assim, um grupo mundial de quase mil pesquisadores, de diversas áreas, da matemática e linguística à medicina e história antiga, decidiu criar algo ainda mais desafiador. O resultado é o "Humanity's Last Exam" (HLE) – uma avaliação com 2.500 questões que abrange desde matemática avançada até a tradução de antigas inscrições palmirenas, a identificação de minúsculas estruturas anatômicas em aves e a análise de características da pronúncia do hebraico bíblico.
Como as perguntas foram escolhidas
Entre os colaboradores do teste está o Dr. Tung Nguyen, professor associado de ciência da computação e engenharia na Texas A&M University, que escreveu 73 das questões disponíveis publicamente – o segundo maior número entre todos os colaboradores.
"Quando os sistemas de IA começam a ter um desempenho extremamente bom em benchmarks humanos, é tentador pensar que estão se aproximando da compreensão humana", disse ele. "Mas o HLE nos lembra que a inteligência não se resume ao reconhecimento de padrões – trata-se de profundidade, contexto e conhecimento especializado", acrescentou.
Cada questão foi testada com os principais modelos de IA antes de ser finalizada. Se algum modelo respondesse corretamente, a questão era removida. O processo de filtragem foi projetado para garantir que o exame estivesse um pouco além do que os sistemas atuais conseguem lidar de forma confiável.

Os primeiros resultados comprovam isso. O GPT-4o obteve 2,7%, o Claude 3.5%, o Sonnet alcançou 4,1% e o o1 da OpenAI ficou em torno de 8%. Sistemas mais recentes, incluindo o Gemini 2.1 Pro e o Claude Opus, atingiram entre 40% e 50%. Para evitar que os modelos sejam treinados com base nas perguntas antecipadamente, a maioria dos resultados é mantida em sigilo, com apenas uma parte sendo divulgada publicamente.
Nguyen afirmou que a necessidade de benchmarks confiáveis vai além do interesse acadêmico: "Sem ferramentas de avaliação precisas, formuladores de políticas, desenvolvedores e usuários correm o risco de interpretar erroneamente o que os sistemas de IA realmente podem fazer".
Ele acrescentou que os benchmarks fornecem a base para medir o progresso e identificar riscos.
Não é um aviso – é uma ferramenta de medição
Apesar do nome, os pesquisadores enfatizaram que o exame não pretende ser uma declaração de que a IA está superando a expertise humana. O objetivo é fornecer à área uma visão mais clara e honesta das áreas em que os sistemas de IA ainda apresentam deficiências e produzir um parâmetro de referência que permaneça útil à medida que os modelos continuam a evoluir.
"Esta não é uma corrida contra a IA", disse Nguyen. "É um método para entender onde esses sistemas são fortes e onde encontram dificuldades. Esse entendimento nos ajuda a construir tecnologias mais seguras e confiáveis. E, principalmente, nos lembra por que a expertise humana ainda importa".
Nguyen acrescentou que especialistas de quase todas as disciplinas contribuíram para a colaboração, e é essa amplitude de conhecimento humano, segundo ele, que torna as lacunas no desempenho da IA visíveis de maneiras que testes mais específicos não conseguem.
Referência da notícia
Don’t Panic: ‘Humanity’s Last Exam’ has begun. 25 de fevereiro, 2026. Lesley Henton.