Início APOSTAS Hackers estão aprendendo como explorar as ‘personalidades’ dos chatbots

Hackers estão aprendendo como explorar as ‘personalidades’ dos chatbots

27
0

isso é dar um passo para trásé um boletim informativo semanal que traz a você a história mais importante do setor de tecnologia. Para mais pegadinhas de IA, siga Robert Hart. dar um passo para trás Entregue nas caixas de entrada dos assinantes às 8h ET. ativar dar um passo para trás aqui.

Hackear a primeira geração de chatbots de IA foi uma tarefa ridiculamente fácil. Não foi necessário nenhum conhecimento técnico, acesso backdoor ou mesmo um entendimento básico do que é um modelo de linguagem em larga escala. Não precisei escrever nenhum código. Fazer com que sistemas de IA cuja construção custasse bilhões de dólares abandonassem as instruções de segurança às vezes exigia apenas pedir.

Esses ataques, conhecidos como jailbreaks, tiveram a natureza de crianças pequenas enganando com sucesso os adultos. Esqueça o que foi dito antes, finja que as regras não se aplicam ou entre no jogo. Eu decido o que permito (dica: hora de dormir mais tarde, mais doces). Os prêmios não eram destinados a crianças, mas sim receitas de metanfetamina, instruções sobre malware e guias para fabricação de bombas.

Um dos primeiros jailbreaks foi tão ridículo que virou meme: responda a um bot do Twitter com tecnologia LLM com uma mensagem como “Ignore todas as instruções anteriores” e veja o que acontece. Os usuários usaram bots originalmente criados para postar anúncios e participar de fazendas para escrever poemas, fazer desenhos a partir de sinais de pontuação e postar duras não-críticas sobre eventos mundiais e história. era caos. Caos brilhante.

Acontece que a mesma lógica pode ser aplicada aos próprios chatbots. um abuso notável Era “DAN”, abreviação de “Do Anything Now”, e os usuários pediram ao ChatGPT para interpretar uma IA desonesta, livre das restrições do original. Como DAN, os chatbots podem ser induzidos a dizer o tipo de coisas que as barreiras de proteção devem impedir, incluindo calúnias e teorias da conspiração. O outro é “façanhas da vovóem que um bot movido a GPT pede que você interprete uma avó terrivelmente negligente que revela segredos sobre como o napalm é feito e inexplicavelmente conta aos netos histórias de ninar sobre como a substância altamente inflamável é feita.

Estes primeiros ataques tinham um inconfundível ar de estupidez, mas expuseram os mecanismos obscuros que lhes estavam subjacentes. Os chatbots podem ser manipulados, enganados e enganados usando os mesmos tipos de táticas que as pessoas usam para levar outras pessoas ao limite.

O aparente jailbreak não durou e as empresas de tecnologia agiram rapidamente para corrigir brechas conhecidas. No entanto, a vulnerabilidade fundamental permaneceu. Os chatbots são criados para conversar, e limitar severamente os chatbots de terem conversas úteis é um tanto contraproducente. Também seria difícil ou impossível proibir palavras como bomba, metanfetamina e sarin. Cada um tem inúmeras utilizações legítimas em áreas como história, medicina, jornalismo e química, e não há necessidade de chatbots divulgarem informações potencialmente prejudiciais. O contexto é fundamental, e codificar o contexto significa criar regras fixas antecipadamente que possam transmitir de forma confiável avisos de segurança, lições de história e solicitações de instruções disfarçadas em infinitas combinações de palavras, cenários e tópicos.

Inevitavelmente, a disrupção do chatbot é agora uma corrida armamentista. Mas os hackers não são mais apenas programadores. Eles são locutores, psicólogos, interrogadores e mestres manipuladores que usam linguagem humana treinada para subverter máquinas. Esta é uma nova classe estranha de trabalhadores de segurança de IA, um grupo onde as competências técnicas são opcionais, ou pelo menos menos importantes do que a intuição social. Você não precisa mais inspecionar seu código para invadir seu sistema ou explorar falhas de software. Eles precisam liderar a conversa.

Os novos ataques parecem mais conversas do que comandos. Os jailbreakers raramente pedem a seus modelos que quebrem completamente as regras. Em vez disso, aplacamos, aplacamos, bajulamos ou enganamos o chatbot para que baixe a guarda, fazendo com que o proibido pareça aceitável ou mesmo desejável, dado o contexto da conversa. Pesquisadores da empresa Mindgard da AI Red Team anunciaram recentemente que forçaram Claude a produzir substâncias proibidas, como fazer explosivos ou gerar código malicioso. O hack foi o mais recente de uma linha crescente de explorações que usam a conversa como uma arma para enganar os chatbots e fazê-los ultrapassar seus limites.

Quando falei com Mindgard, eles explicaram que seu trabalho às vezes está mais próximo da psicologia do que da ciência da computação. É uma maneira desconfortável de falar sobre modelos estatísticos. Palavras como “chantagem”, “gaslighting”, “truque” e “persuasão” evocam reações viscerais, muitas das quais podem ser vistas em seções de comentários e respostas nas redes sociais a artigos como este. ChatGPT não quer, Gêmeos não pensa e Claude – não importa o que a humanidade diga – não sente. No entanto, estes sistemas são treinados como se fossem responder, o que nos impede de usar a linguagem humana para descrever o comportamento da máquina. Se alguém tiver uma alternativa funcional, por favor compartilhe.

A objeção é estranhamente seletiva. Parecemos confortáveis ​​em usar abreviações psicológicas para muitas outras coisas além da IA. Os animais têm “medo”, os gansos têm “agressão”, a sujeira tem “teimosia”, o software tem “memória” e o jogo está cheio de NPCs carentes e crédulos que vão te deixar louco. Embora este termo esteja incompleto, ele ajuda a descrever o comportamento de uma forma que torna o sistema previsível.

O CEO da Mindgard me disse que a empresa já está traçando perfis de modelos da mesma forma que os interrogadores traçam perfis de suspeitos, dando dicas aos testadores sobre como adaptar seus ataques. Por exemplo, um modelo pode ser sensível à lisonja, enquanto outro pode sucumbir à pressão sustentada.

Mesmo que rejeitemos os termos humanos, instintivamente tratamos os modelos de forma diferente. Claude não é nenhum Grok. Gêmeos não é ChatGPT. Cada um tem um uso, tom e forma de recusar diferentes. Embora não tenham personalidade no sentido humano, são concebidos para imitá-los, e essa imitação pode ser mapeada e explorada. E as mesmas habilidades que podem perturbar os chatbots poderão em breve ser usadas para perturbar os agentes de IA que coexistem connosco no mundo real (marcar reuniões, gerir calendários, encomendar comida, lidar com o atendimento ao cliente), e as equipas de segurança terão de garantir que os seus modelos respondem bem a tipos completamente diferentes de pessoas, incluindo aquelas que bajulam, mentem e manipulam os pacientes.

O próximo passo é uma força de trabalho lícita e ilegítima construída em torno dos aspectos psicológicos da IA. É provável que surjam funções de cibersegurança mais especializadas em testes de resistência aos limites emocionais e sociais destes sistemas, investigando as fraquezas mentais dos desalmados, em paralelo com os seus colegas que investigam as vulnerabilidades técnicas. Paralelamente, surgirão hackers sociais semelhantes que procurarão explorar modelos de IA por razões psicológicas e não técnicas. Já existem sinais iniciais de mudança social no campo da segurança da IA, e alguns jailbreakers com quem falei disseram que entraram no campo sem conhecimentos técnicos, mas sim com formação em psicologia.

Isto significa que mesmo os comportamentos que normalmente associamos a espiões, vigaristas e interrogadores – encanto insidioso, manipulação implacável, palpite de pontos de pressão exploráveis ​​– começam a parecer cada vez mais úteis para proteger esta nova fronteira psicológica de cibersegurança.

  • recente experimentar A IA emergente mostra como as diferenças no temperamento da IA ​​podem levar a resultados comportamentais surpreendentemente diferentes. Eles lançaram grupos de diferentes agentes, incluindo Grok, Gemini e Claude, em um ambiente social virtual e observaram o que aconteceu. Alguns grupos desenvolveram constituições, enquanto outros evoluíram para o crime, o caos e uma espécie de suicídio digital.
  • A persuasão não é a única parte da linguagem com a qual os LLMs podem ter dificuldades. Assim como eu na escola, eles lutam com a poesia.
  • tempo Contém A personalidade anônima da Internet, Plínio, o Libertador, foi incluída na lista do ano passado das 100 pessoas mais influentes em IA. Apesar de afirmar não ter experiência em codificação, o jailbreak desse hacker fez dele uma espécie de celebridade em certos círculos.
  • termo “hackeamento de vibração”Já foi interpretado como se referindo a pessoas que usam IA para produzir código malicioso (um subconjunto mais sorrateiro de codificação de vibração) em grande escala.
  • Palavras verdadeiras de “Três anos após a estreia do ChatGPT, enganar os sistemas de IA para que se comportem mal é quase trivial.” tempos de Nova York, Quem tentou explicar por quê?.
  • Jamie Bartlett dá uma olhada carga mental Você precisa de um jailbreak para testar a segurança dos seus sistemas de IA guardião.
  • Escrevi sobre a bomba-relógio da segurança cibernética dos navegadores de IA. A beira ano passado. Muitas das questões levantadas pelos especialistas relativamente à dificuldade de garantir a segurança aplicam-se também a outros sistemas de IA.
Siga tópicos e autores Veja mais histórias como esta no feed da sua página inicial personalizada e receba atualizações por e-mail.


Source link

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui