Início NOTÍCIAS Anthropica diz que imagens ‘ruins’ de IA foram responsáveis ​​pelas tentativas de...

Anthropica diz que imagens ‘ruins’ de IA foram responsáveis ​​pelas tentativas de Claudio de parar

15
0

As imagens de inteligência artificial podem ter um efeito real nos modelos de IA, de acordo com a Anthropic.

No ano passado, a empresa disse que durante os testes de pré-lançamento da empresa falsa, Close Opus 4 tentaria repetidamente chantagear os dispositivos para que outro sistema não fosse substituído. Antrópico mais tarde pesquisa publicada sugerindo que exemplos de outras empresas tiveram problemas semelhantes com “desalinhamento de agentes”.

Parece que o antrópico tem trabalhado mais sobre comportamento, dizendo em filtro X*“Acreditamos que a fonte original do comportamento foi um texto da Internet que retratava a IA como má e egoísta.”

A empresa entrou em mais detalhes uma postagem no blog declarando com Claude Haiku 4.5, os modelos antrópicos “nunca chantageiam (por meio de testes), onde os modelos anteriores às vezes faziam até 96% das vezes”.

Qual é a diferença? A empresa disse que encontrou no exercício “documentos sobre a constituição de Cláudio e as histórias fictícias sobre IAs, que melhoraram notavelmente à noite”.

Da mesma forma, a Anthropic disse que descobriu que o treinamento é mais eficaz quando inclui “princípios de comportamento de jogo” e não apenas “demonstrações apenas de comportamento de jogo”.

“Fazer as duas coisas juntas parece ser a estratégia mais eficaz”, disse a empresa.

Coisa tecnológica

São Francisco, Califórnia
|
13 a 15 de outubro de 2026

Source link

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui