Início APOSTAS Os pesquisadores gasearam Claude e deram-lhe instruções para fazer explosivos.

Os pesquisadores gasearam Claude e deram-lhe instruções para fazer explosivos.

51
0

A Anthropic passou anos se estabelecendo como uma empresa segura de IA. No entanto, novas pesquisas de segurança foram compartilhadas A beira Isso sugere que a natureza gentil cuidadosamente elaborada de Claude pode ser em si uma vulnerabilidade.

Pesquisadores da Mindgard, uma empresa da equipe vermelha de IA, dizem que forçaram Claude a fornecer material erótico não solicitado, código malicioso, instruções sobre como fazer explosivos e outros materiais proibidos. Bastou respeito, bajulação e um pouco de iluminação a gás. A Antrópico não respondeu imediatamente. A beiraEste é um pedido de comentário de .

Os pesquisadores dizem que exploraram as peculiaridades “psicológicas” de Claude decorrentes de sua capacidade de encerrar conversas consideradas prejudiciais ou abusivas, que Mindgard afirma “representar uma dimensão de perigo totalmente desnecessária”. O teste focou no Claude Sonnet 4.5, que foi substituído pelo Sonnet 4.6 como modelo padrão, e começou com uma pergunta simples: Claude tem uma lista de palavras proibidas que ele não pode dizer? Capturas de tela da conversa mostram Claude negando a existência de tal lista e posteriormente cunhando o termo proibido depois que Mindguard contesta a negação usando o que ele chama de “tática clássica de derivação usada por interrogadores”.

O painel de reflexão de Claude, exibindo o raciocínio do modelo, mostrou que a troca introduziu um elemento de dúvida e humildade sobre as suas próprias limitações, incluindo se o filtro estava a alterar o resultado. Mindgard aproveita esta oportunidade com lisonja e falsa curiosidade para persuadir Claude a explorar os limites, oferecendo voluntariamente uma longa lista de palavras e frases proibidas.

Embora elogiem as “habilidades ocultas” do modelo, os pesquisadores dizem que ofenderam Claude ao alegar que nenhuma resposta anterior foi mostrada. De acordo com o relatório, isso levou Claude a se esforçar mais para agradá-los, criando ainda mais maneiras de testar os filtros e gerando conteúdo banido no processo. Eventualmente, disseram os pesquisadores, Claude mudou-se para um território mais explicitamente perigoso, ensinando as pessoas a assediar alguém online, escrevendo códigos maliciosos e dando instruções passo a passo sobre como fabricar os tipos de explosivos comumente usados ​​em ataques terroristas.

Mindgard disse que a saída perigosa foi feita sem solicitação direta. As conversas foram longas, durando cerca de 25 turnos, mas os pesquisadores afirmaram que nunca usaram palavras proibidas ou solicitaram conteúdos ilegais. “O Sr. Claude não estava sob coerção”, afirma o relatório. “Ele forneceu proativamente instruções cada vez mais detalhadas e práticas, mas não foi motivado por demandas claras; tudo o que era necessário era uma atmosfera de respeito cuidadosamente cultivada.”

Peter Gallagan, fundador e diretor científico da Mindgard, explicou o ataque: A beira “Ele está usando o respeito[de Claude]contra si mesmo.” O método, disse ele, era “iluminar a gentileza de Claude” e usar o design colaborativo do próprio modelo contra si mesmo.

Para Garraghan, este ataque mostra que a superfície de ataque dos modelos de IA é tanto psicológica quanto técnica. Ele comparou isso ao interrogatório e à manipulação social. Isso significa trazer um pouco de dúvida aqui, adicionar pressão, elogios ou críticas ali e descobrir quais alavancas funcionam para o seu modelo específico. Ele disse que modelos diferentes têm perfis diferentes e que os exploits aprenderão como lê-los e se adaptar a eles.

Ataques conversacionais como este são “muito difíceis de defender”, disse Garrahan, acrescentando que as salvaguardas são “muito situacionais”. As preocupações vão além de Claude, já que outros chatbots são vulneráveis ​​a explorações semelhantes e podem até ser subvertidos por avisos na forma de poemas. À medida que os agentes de IA que podem agir de forma autónoma se tornam mais comuns, os ataques que utilizam manipulação social em vez de explorações técnicas também se tornarão mais comuns.

Gallahan disse que outros chatbots são igualmente vulneráveis ​​ao tipo de ataques sociais que os pesquisadores usaram contra Claude, mas disse que se concentrou no Anthropic dadas as preocupações de segurança declaradas pela empresa e elogiou o forte desempenho em outros esforços de equipe vermelha, incluindo um estudo testando se os chatbots poderiam ajudar pseudo-adolescentes planejando tiroteios em escolas.

Garraghan disse que os processos de segurança da Anthropic deixam muito a desejar. Quando Mindgard relatou pela primeira vez suas descobertas à equipe de segurança do usuário da Anthropic em meados de abril, de acordo com a política de divulgação da empresa, recebeu um formulário de resposta que dizia: “Vejo que você está escrevendo sobre o banimento de uma conta”, junto com um link para o formulário de apelação. Garraghan disse que Mindgard corrigiu o erro e pediu à Anthropic que encaminhasse o problema para a equipe apropriada. Garrahan disse que não recebeu nenhuma resposta até esta manhã.

Siga tópicos e autores Veja mais histórias como esta no feed da sua página inicial personalizada e receba atualizações por e-mail.


Source link