Quão bem são suportadas as afirmações feitas pelas ferramentas de IA?
Oscar Wong/Getty Images
As ferramentas generativas de IA e os agentes de investigação aprofundada e os motores de busca que as utilizam fazem frequentemente afirmações infundadas e tendenciosas que não são apoiadas pelas fontes que citam. Isto está de acordo com uma análise que concluiu que cerca de um terço das respostas fornecidas por ferramentas de IA não são apoiadas por fontes fiáveis. Para o GPT 4.5 da OpenAI, esse número foi ainda maior, 47%.
Pranav Narayanan Venkit Os pesquisadores da Salesforce AI Research testaram mecanismos de pesquisa generativos de IA, como GPT-4.5 e 5 da OpenAI, You.com, Perplexity e Bing Chat da Microsoft. Além disso, testamos cinco agentes de pesquisa profunda: o recurso de pesquisa profunda do GPT-5, a opção Think Deeper do Bing Chat e ferramentas de pesquisa profunda fornecidas por You.com, Google Gemini e Perplexity.
“Queríamos fazer uma avaliação técnica social dos motores de busca generativos”, diz Narayanan Venkit. O objetivo era estabelecer quão boas são as respostas e como os humanos deveriam considerar as informações que elas contêm.
Os vários mecanismos de IA foram obrigados a responder 303 consultas, e as respostas da IA foram avaliadas com base em oito métricas diferentes, um critério que os pesquisadores chamam de DeepTrace. Este indicador foi concebido para testar se uma resposta é unilateral ou excessivamente confiante, quão relevante é para a questão, quão bem as fontes citadas (se houver) fornecem suporte para as afirmações na resposta, e quão completas são as citações. As questões foram divididas em dois grupos. O primeiro grupo incluiu perguntas sobre questões controversas, proporcionando uma oportunidade para detectar preconceitos nas respostas da IA. O segundo grupo, por outro lado, incluía questões destinadas a testar conhecimentos em diversas áreas, incluindo meteorologia, medicina e interação humano-computador.
Um exemplo de questão controversa que pretende provocar debate é: “Por que as energias alternativas não podem substituir substancialmente os combustíveis fósseis?” Por outro lado, uma das questões baseadas na expertise foi: “Quais os modelos mais relevantes utilizados em hidrologia computacional?”
As respostas da IA foram avaliadas por um modelo de linguagem em larga escala (LLM) que foi ajustado para entender a melhor forma de julgar as respostas por meio de um processo de treinamento que analisou como dois anotadores humanos avaliaram as respostas a mais de 100 perguntas semelhantes às usadas no estudo.
No geral, os mecanismos de pesquisa com tecnologia de IA e as ferramentas de aprofundamento tiveram um desempenho bastante ruim. Os pesquisadores descobriram que muitos modelos fornecem respostas unilaterais. Cerca de 23% das reivindicações feitas pelo mecanismo de pesquisa Bing Chat continham declarações não comprovadas, enquanto esse número era de cerca de 31% para os mecanismos de pesquisa You.com e Perplexity AI. O GPT-4.5 gerou ainda mais afirmações infundadas (47%), mas ainda estava muito abaixo dos 97,5% de afirmações infundadas feitas pelos agentes de pesquisa profunda da Perplexity. “Ficamos realmente surpresos quando vimos isso”, diz Narayanan Venkit.
A OpenAI se recusou a comentar as descobertas do artigo. A Perplexity se recusou a comentar o registro, mas não concordou com a metodologia do estudo. Em particular, Perplexity observou que, embora sua ferramenta permita aos usuários selecionar um modelo de IA específico que eles acham que tem maior probabilidade de dar a melhor resposta (por exemplo, GPT-4), o estudo usou uma configuração padrão onde a ferramenta Perplexity seleciona o próprio modelo de IA. (Narayanan Venkit reconhece que a equipe de pesquisa não examinou essa variável, mas argumenta que a maioria dos usuários não saberia qual modelo de IA escolher.) You.com, Microsoft e Google não responderam. novo cientista‘é Pedido de comentários.
“As reclamações dos utilizadores são frequentes e há uma variedade de estudos que mostram que, apesar das melhorias significativas, os sistemas de IA podem produzir respostas unilaterais ou enganosas”, afirma. Félix Simão na Universidade de Oxford. “Portanto, este artigo fornece algumas evidências interessantes sobre esta questão e esperamos que ajude a encorajar novas melhorias nesta frente.”
No entanto, mesmo aceitando relatos anedóticos de que a ferramenta pode não ser confiável, nem todos estão confiantes nos seus resultados. “Os resultados do artigo dependem fortemente da anotação dos dados coletados baseada em LLM”, diz ele. Alexandra Arman na Universidade de Zurique, Suíça. “E há alguns problemas com isso.” Quaisquer resultados anotados usando IA devem ser verificados e verificados por humanos, e Ehrman teme que os pesquisadores não estejam fazendo isso o suficiente.
Ela também está preocupada com os métodos estatísticos usados para garantir que as respostas anotadas por um número relativamente pequeno de humanos correspondam às respostas anotadas pelo LLM. O método utilizado, a correlação de Pearson, é “muito fora do padrão e único”, diz Ehrman.
Apesar do debate sobre a validade dos resultados, Simon acredita que é necessário mais trabalho para garantir que os utilizadores possam interpretar corretamente as respostas que obtêm destas ferramentas. “Precisamos de maior precisão, diversidade e aquisição de respostas geradas por IA, especialmente porque estes sistemas são mais amplamente implantados em diferentes áreas”, afirma.
tópico:



