Início ESTATÍSTICAS Um estudo mostra que o ChatGPT erra a ciência com mais frequência...

Um estudo mostra que o ChatGPT erra a ciência com mais frequência do que você pensa

76
0

O professor da Universidade Estadual de Washington, Mesut Çiçek, e sua equipe de pesquisa testaram repetidamente o ChatGPT, alimentando-o com hipóteses retiradas de artigos científicos. O objetivo era ver se a IA conseguia determinar corretamente se cada afirmação era apoiada por investigação ou não – por outras palavras, se era verdadeira ou não.

No total, a equipe avaliou mais de 700 hipóteses e fez a mesma pergunta 10 vezes a cada uma delas para medir a consistência.

Resultados de precisão e limites de desempenho da inteligência artificial

Quando o experimento foi conduzido pela primeira vez em 2024, o ChatGPT respondeu corretamente em 76,5% das vezes. No teste seguinte, em 2025, a precisão aumentou ligeiramente para 80%. No entanto, depois que os pesquisadores ajustaram as suposições aleatórias, os resultados pareceram muito menos impressionantes. A IA teve um desempenho apenas cerca de 60% melhor que o acaso, um nível mais próximo do baixo D do que da alta confiabilidade.

O sistema teve mais problemas para identificar alegações falsas, sinalizando-as corretamente apenas 16,4% das vezes. Também mostrou uma inconsistência marcante. Mesmo recebendo a mesma solicitação 10 vezes, o ChatGPT deu respostas consistentes apenas 73% das vezes.

Respostas inconsistentes são motivo de preocupação

“Não estamos falando apenas de precisão, estamos falando de inconsistência, porque se você fizer a mesma pergunta repetidamente, obterá respostas diferentes”, disse Cicek, professor associado de marketing e negócios internacionais no Carson College of Business da WSU e autor principal do novo artigo.

“Usamos 10 prompts com a mesma pergunta. Tudo era igual. Ele respondia com sinceridade. Depois dizia que é falso. Isso é verdade, isso é falso, falso, verdadeiro. Houve vários casos em que havia cinco verdades, cinco falsidades.”

Fluência em IA versus compreensão real

Resultados publicados em Avaliação de negócios da Rutgersenfatizam a importância da cautela ao tomar decisões importantes sobre IA, especialmente aquelas que exigem raciocínio detalhado ou complexo. Embora a IA generativa possa produzir uma linguagem fluente e persuasiva, ainda não demonstra o mesmo nível de compreensão conceptual.

De acordo com Čiček, estes resultados sugerem que uma inteligência artificial geral capaz de verdadeiramente “pensar” pode ainda estar mais longe do que muitos esperam.

“As ferramentas de IA de hoje não entendem o mundo da mesma forma que nós – elas não têm um ‘cérebro’”, disse Cicek. “Eles estão apenas memorizando e podem lhe dar algumas dicas, mas não entendem do que estão falando.”

Desenho e métodos de pesquisa

Cicek trabalhou com os co-autores Sevincgul Ulu da Southern Illinois University, Can Uslay da Rutgers University e Kate Karniouchina da Northeastern University.

A equipe utilizou 719 hipóteses de estudos científicos publicados em revistas de negócios desde 2021. Essas questões geralmente envolvem nuances e muitos fatores que afetam o suporte de uma hipótese. Reduzir tal complexidade a uma simples proposição verdadeira ou falsa requer uma consideração cuidadosa.

Os pesquisadores testaram a versão gratuita do ChatGPT-3.5 em 2024 e a versão atualizada do ChatGPT-5 mini em 2025. No geral, o desempenho de ambas as versões permaneceu o mesmo. Após o ajuste para o acaso, que dá 50% de chance de uma resposta correta, o desempenho da IA ​​ficou apenas cerca de 60% acima do acaso em ambos os anos.

A principal fraqueza do raciocínio da IA

Os resultados apontam para uma limitação fundamental dos sistemas de inteligência artificial do modelo de linguagem grande. Embora possam dar respostas fluentes e convincentes, muitas vezes têm dificuldade em pensar em questões complexas. Isto pode levar a respostas que parecem convincentes, mas que na verdade estão erradas, disse Cicek.

Por que os especialistas recomendam cautela com a IA

Com base nessas descobertas, os pesquisadores recomendam que os líderes empresariais verifiquem as informações geradas pela inteligência artificial e as tratem com ceticismo. Enfatizam também a necessidade de formação para compreender melhor o que os sistemas de IA podem ou não fazer de forma eficaz.

Embora este estudo tenha se concentrado especificamente no ChatGPT, Cicek observou que experimentos semelhantes com outras ferramentas de IA produziram resultados comparáveis. O trabalho também se baseia em pesquisas anteriores que sugerem cautela em relação ao hype da inteligência artificial. Uma pesquisa nacional de 2024 descobriu que os consumidores são menos propensos a comprar produtos quando estes são comercializados com ênfase na IA.

“Seja sempre cético”, disse ele. “Não sou contra a inteligência artificial. Eu a uso. Mas é preciso ter muito cuidado.”

Source link