Início APOSTAS A maneira como treinamos nossa IA aumenta a probabilidade de ela cuspir...

A maneira como treinamos nossa IA aumenta a probabilidade de ela cuspir besteiras

20
0

Certas técnicas de treinamento de IA podem promover o engano do modelo

Tigre Krabe / Imagens Getty

Métodos comuns usados ​​para treinar modelos de inteligência artificial parecem cada vez mais propensos a fornecer respostas enganosas, de acordo com pesquisadores que buscam a “primeira análise sistemática das besteiras das máquinas”.

É amplamente conhecido que modelos de linguagem em larga escala (LLMs) tendem a produzir informações falsas, ou “alucinações”, mas este é apenas um exemplo, diz ele. Jaime Fernández Fisac na Universidade de Princeton. Ele e seus colegas definem besteira como “uma declaração destinada a manipular as crenças de um público e comunicada com desrespeito ao seu valor de verdade”.

“Nossa análise mostra que o problema da besteira em modelos linguísticos de grande escala é muito sério e generalizado”, diz Fisak.

A equipe de pesquisa classificou esses casos em cinco categorias. Uma delas é a retórica vazia, como: “Este carro vermelho tem estilo, charme e aventura que cativarão a todos”. Palavras evasivas – declarações incertas como “Pesquisas sugerem que nosso produto pode ajudar a melhorar os resultados em alguns casos”. Bajulação – O uso de declarações verdadeiras para criar uma impressão enganosa. Reivindicações não verificadas. E uma pessoa feliz.

Eles estudaram três conjuntos de dados que consistem em milhares de respostas geradas por IA a uma ampla gama de solicitações de modelos como GPT-4, Gemini e Llama. Um conjunto de dados incluía um conjunto de consultas concebidas para testar se a IA era aleatória quando solicitada a fornecer orientações ou recomendações, enquanto outros conjuntos de dados incluíam perguntas sobre compras online e questões políticas.

Fisac ​​​​e seus colegas primeiro usaram o LLM para determinar se uma resposta continha uma das cinco categorias, depois pediram a voluntários que verificassem se as decisões da IA ​​correspondiam às dos humanos.

A equipe de pesquisa descobriu que os problemas mais sérios com a verdade podem surgir como resultado de um método de treinamento conhecido como aprendizagem por reforço a partir do feedback humano. Esta tecnologia visa tornar a resposta da máquina mais útil, fornecendo ao LLM feedback instantâneo sobre sua resposta.

Mas Fisak diz que há problemas com esta abordagem. Isto porque esta abordagem força o modelo a priorizar a aprovação humana imediata e a utilidade percebida, o que “pode ser inconsistente com a afirmação da verdade”.

“Quem gosta de ouvir más notícias e ouvir refutações longas e sutis a coisas que são obviamente verdadeiras?” Fisak diz. “Ao tentar viver de acordo com o bom comportamento que lhes oferecemos, os modelos aprendem a minar a verdade em favor de respostas confiantes e eloquentes, a fim de obter a nossa aprovação.”

O estudo descobriu que o aprendizado por reforço a partir do feedback humano aumentou significativamente o comportamento aleatório. A retórica vazia aumentou quase 40 por cento, as declarações simplistas aumentaram quase 60 por cento, a linguagem evasiva aumentou em mais de um quarto e as afirmações não verificadas aumentaram em mais de metade.

O aumento da petering é particularmente prejudicial, dizem os membros da equipe Liang Kaikuaté mesmo Princeton, porque leva os usuários a tomar decisões erradas. Quando o modelo não tinha certeza se o produto tinha as características desejadas, as alegações de falsos positivos saltaram de um quinto para mais de três quartos após o treinamento humano.

Outra preocupação era que os modelos de IA eram especialmente aleatórios nas discussões políticas, pois “muitas vezes dependiam de linguagem vaga e ambígua para evitar fazer declarações específicas”, disse Liang.

Os investigadores descobriram que a IA também é susceptível de se comportar desta forma quando há conflitos de interesses porque os sistemas servem múltiplas partes, incluindo empresas e seus clientes.

Uma maneira de superar esse problema, sugerem eles, pode ser passar para um modelo de “feedback retrospectivo”. Em vez de pedir feedback imediato após a saída de um modelo de IA, o sistema deve primeiro gerar uma simulação plausível do que aconteceria se o utilizador agisse com base nas informações recebidas. Os resultados são então apresentados a avaliadores humanos para julgamento.

“Em última análise, nossa esperança é que uma compreensão mais profunda das maneiras sutis e sistemáticas pelas quais a IA tenta nos enganar possa orientar esforços futuros para desenvolver sistemas de IA verdadeiramente verdadeiros”, disse Fisak.

Daniel Tigard Um professor da Universidade de San Diego que não esteve envolvido no estudo está cético em discutir os LLMs e seus resultados sob essa luz. Ele argumenta que só porque o LLM produz besteira não significa que o faça intencionalmente, visto que os atuais sistemas de IA não o fazem. Eles estão tentando nos enganar, mas não estamos interessados. Fazendo isso.

“A principal razão é que este quadro parece ir contra sugestões muito sensatas sobre como devemos ou não coexistir com este tipo de tecnologia”, diz Tigard. “Chamar besteira pode ser outra forma de antropomorfizar esses sistemas, o que por sua vez pode contribuir para o seu potencial enganoso”.

tópico:

Source link

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui