Início ESTATÍSTICAS Os cientistas criaram o teste de inteligência artificial mais complexo e os...

Os cientistas criaram o teste de inteligência artificial mais complexo e os resultados são surpreendentes

49
0

Quando os sistemas de inteligência artificial começaram a obter pontuações extremamente altas em testes acadêmicos utilizados há muito tempo, os pesquisadores notaram um problema crescente. Os testes que antes desafiavam as máquinas não eram mais difíceis o suficiente. Avaliações bem conhecidas, como o exame Massively Multitasking Language Understanding (MMLU), antes consideradas exigentes, agora não conseguem medir adequadamente as capacidades dos atuais modelos avançados de IA.

Para resolver este problema, uma equipa global de quase 1.000 investigadores, incluindo um professor da Texas A&M University, desenvolveu um novo tipo de teste. O objetivo deles era criar um exame amplo, complexo e baseado no conhecimento humano especializado, de uma forma que os atuais sistemas de inteligência artificial ainda têm dificuldade em realizar.

O resultado é o Último Exame da Humanidade (HLE), uma avaliação de 2.500 perguntas que abrange matemática, humanidades, ciências naturais, línguas antigas e uma ampla gama de campos acadêmicos altamente especializados. Detalhes do projeto aparecem em artigo publicado em Naturezae mais informações sobre o exame podem ser obtidas em lastexam.ai.

Entre os muitos colaboradores está o Dr. Tung Nguyen, professor associado de ciência da computação e engenharia na Texas A&M. Nguyen ajudou a escrever e refinar muitas das questões do exame.

“Quando os sistemas de IA começam a funcionar muito bem em testes em humanos, é tentador pensar que estão se aproximando da compreensão do nível humano”, disse Nguyen. “Mas o HLE nos lembra que a inteligência não se trata apenas de reconhecimento de padrões – trata-se de profundidade, contexto e conhecimento especializado.”

O objetivo do exame não era trapacear ou vencer as pessoas que faziam o teste. Em vez disso, o objetivo era identificar cuidadosamente as áreas onde os sistemas de IA ainda falham.

Um esforço global para medir os limites da inteligência artificial

Especialistas de todo o mundo escreveram e analisaram as questões incluídas em “O Último Exame da Humanidade”. Cada problema foi cuidadosamente projetado para ter uma resposta correta que pode ser verificada. As perguntas também foram elaboradas para evitar soluções rápidas através de uma simples pesquisa na internet.

Os tópicos vêm de tarefas acadêmicas avançadas. Algumas tarefas envolvem a tradução de inscrições antigas de Palmira, enquanto outras exigem a identificação de minúsculas estruturas anatômicas em pássaros ou a análise detalhada da pronúncia bíblica em hebraico.

Os pesquisadores testaram cada questão em relação aos principais sistemas de inteligência artificial. Caso algum modelo conseguisse responder corretamente a uma questão, essa questão era retirada do exame final. Este processo garantiu que o teste não excedesse o que os atuais sistemas de inteligência artificial poderiam resolver de forma confiável.

Os primeiros testes confirmaram que a estratégia funcionou. Até modelos poderosos de IA tiveram dificuldade para passar no exame. GPT-4o obteve 2,7 por cento, enquanto Claude 3.5 Sonnet alcançou 4,1 por cento. O modelo OpenAI o1 teve um desempenho ligeiramente melhor – 8%. Os sistemas mais capazes até agora, incluindo o Gemini 3.1 Pro e o Claude Opus 4.6, alcançaram níveis de precisão de cerca de 40 a 50 por cento.

Por que são necessários novos testes de inteligência artificial?

Nguyen explicou que o problema da IA ​​superar os testes mais antigos é mais do que um problema técnico. Ele escreveu 73 das 2.500 questões públicas no HLE, o segundo maior número de todos os membros, e escreveu o maior número de questões relacionadas a matemática e ciência da computação.

“Sem ferramentas precisas de avaliação de políticas, os desenvolvedores e usuários correm o risco de interpretar mal o que os sistemas de IA podem realmente fazer”, disse ele. “Os indicadores fornecem uma estrutura para medir o progresso e identificar riscos.”

De acordo com a equipa de investigação, pontuações elevadas em testes originalmente concebidos para humanos não indicam necessariamente inteligência verdadeira. Esses benchmarks medem principalmente até que ponto a IA pode executar tarefas específicas criadas para os alunos, em vez de uma compreensão mais profunda.

Não é uma ameaça, mas uma ferramenta

Apesar do título dramático, “O Último Exame da Humanidade” não significa que os humanos sejam obsoletos. Em vez disso, enfatiza a vasta quantidade de conhecimento e experiência que ainda permanece exclusivamente humana.

“Esta não é uma corrida contra a inteligência artificial”, disse Nguyen. “É uma forma de compreender onde estes sistemas são fortes e onde enfrentam dificuldades. Esta compreensão ajuda-nos a criar tecnologias mais seguras e fiáveis. E, mais importante, lembra-nos porque é que a experiência humana ainda é importante.”

Criando um benchmark de inteligência artificial de longo prazo

O Último Exame da Humanidade foi projetado para servir como uma referência estável e transparente para futuros sistemas de inteligência artificial. Para apoiar este objetivo, os investigadores tornaram públicas algumas questões, mantendo a maioria escondida para que os modelos de IA não pudessem simplesmente memorizar as respostas.

“O Último Exame da Humanidade é uma das avaliações mais precisas da lacuna entre a IA e a inteligência humana no momento”, disse Nguyen, “e apesar dos rápidos avanços tecnológicos, continua grande”.

Um enorme esforço de pesquisa internacional

Nguyen enfatizou que o escopo do projeto demonstra o valor da cooperação entre disciplinas e países.

“O que tornou este projeto extraordinário foi a escala”, disse ele. “Especialistas de quase todas as disciplinas contribuíram. Não foram apenas cientistas da computação; foram historiadores, físicos, linguistas, investigadores médicos. É esta diversidade que revela as lacunas nos sistemas de inteligência artificial de hoje – talvez ironicamente, são pessoas que trabalham em conjunto.”

Source link