Mesmo enquanto a OpenAI trabalha para fortalecer seu navegador Atlas AI contra ataques cibernéticos, a empresa admite que injeções imediatas, um tipo de ataque que engana os agentes de IA para que sigam instruções maliciosas, muitas vezes escondidas em páginas ou e-mails, são um risco que não desaparecerá rapidamente – levantando questões sobre a segurança com que os agentes de IA podem operar na web aberta.
“É improvável que a injeção imediata, assim como os golpes e a engenharia social na web, sejam totalmente ‘resolvidos’”, escreveu OpenAI na segunda-feira. postagem no blog narrando o quão firmes são os braços dos atlantes dobrados para lutar contra ataques constantes. A empresa admitiu que o “modo ativo” no Atlas ChatGPT “expande a superfície de ameaças à segurança”.
A OpenAI lançou seu navegador ChatGPT em outubro, e os pesquisadores de segurança rapidamente publicaram suas demonstrações, mostrando que poderiam escrever algumas palavras no Google Docs que poderiam mudar o comportamento subjacente do navegador. Corajoso no mesmo dia publicou uma postagem no blog explicando que a injeção indireta imediata é um desafio sistemático para navegadores alimentados por IA, incluindo o Comet Complexity.
A OpenAI não está sozinha ao reconhecer que as injeções imediatas não vão desaparecer. O O Centro Nacional de Segurança Cibernética do Reino Unido alertou no início deste mês Esse ataque imediato de injeção contra aplicações generativas de IA “nunca poderá ser completamente mitigado”, colocando os sites em risco de serem vítimas de violações de dados. No Reino Unido, uma agência governamental aconselhou os especialistas cibernéticos a reduzir o risco e o impacto das injeções imediatas, em vez de pensar que os ataques podem ser “interrompidos”.
Por parte da OpenAI, a empresa disse: “Vemos a injeção rápida como um desafio de segurança de IA de longo prazo e precisaremos fortalecer continuamente nossas defesas contra ela”.
A sociedade está respondendo a esta tarefa de Sísifo? O ciclo de resposta proativo e rápido, que a empresa afirma, mostra-se promissor em ajudar a descobrir novas explorações internamente, antes que sejam exploradas “na natureza”.
Não é totalmente diferente do que os rivais Anthropic e Google disseram: para lutar contra a ameaça constante de ataques imediatos, as defesas provaram ser proativas e continuamente apoiadas. Trabalho recente do Googlepor exemplo, concentra-se na arquitetura e nos controles políticos dos sistemas de agentes.
Mas onde o OpenAI tem uma sensação diferente é com seu atacante automatizado baseado em LLM. Esse invasor geralmente é um carro autônomo que foi treinado pela OpenAI, usando recursos de aprendizagem, para procurar componentes de hacking que introduzem comandos maliciosos no agente de IA.
Um bot pode testar um ataque em uma simulação antes de usá-lo de verdade, e o simulador mostra como a IA alvo pensaria e quais ações tomaria se visse o ataque. O bot pode então rastrear essa resposta, ajustar o ataque e tentar novamente e novamente. A compreensão do raciocínio interno de um alvo de IA é algo a que pessoas de fora não têm acesso, portanto a detecção automática da OpenAI será capaz de encontrar falhas mais rapidamente do que um invasor do mundo real.
É uma técnica comum em testes de segurança de IA: construir um agente para encontrar casos extremos e testá-los rapidamente em uma simulação.
“Nossos (recursos de aprendizagem) podem orientar um agente invasor treinado na execução de tarefas maliciosas inteligentes e de longo horizonte que se desdobram em dezenas (ou mesmo centenas) de etapas”, escreveu OpenAI. “Também notamos novos dispositivos de enredo que não apareceram em nossa campanha de red teaming ou em notícias externas.”
Na demonstração (parte mostrada acima), OpenAI mostra como seu invasor automatizado vazou código malicioso no navegador de um usuário. Posteriormente, quando o agente de IA escaneou a caixa, obteve mensagens ocultas no e-mail e enviou uma mensagem de relatório para resposta do escritório de processamento. Mas após uma atualização de segurança, o “agente de modo” foi capaz de detectar com sucesso uma tentativa de injeção imediata e libertar o usuário, segundo a empresa.
A empresa diz que, embora seja difícil prever a injeção imediata contra um tolo, ela está contando com testes em larga escala e ciclos de patches para fortalecer rapidamente seus sistemas antes que eles apareçam em ataques no mundo real.
Um porta-voz da OpenAI se recusou a compartilhar se a atualização de segurança do Atlas resultou em uma redução mensurável nas injeções bem-sucedidas, mas diz que a empresa tem trabalhado com terceiros para proteger o Atlas contra injeções imediatas desde antes do lançamento.
Rami McCarthy, principal pesquisador de segurança da empresa de segurança cibernética Wiz, diz que o aprendizado por reforço é uma forma de adaptar continuamente o comportamento de um invasor, mas é apenas parte do quadro.
“O poder do raciocínio útil sobre o risco em sistemas de IA é multiplicado pela abordagem de autonomia”, disse McCarthy ao TechCrunch.
“Os pastores agentes tendem a ocupar a parte desafiadora desse espaço: autonomia controlada com acesso muito elevado”, disse McCarthy. “Muitas das recomendações atuais refletem a interação remota. Limitar o acesso do usuário reduz principalmente a exposição, enquanto exigir a revisão das solicitações de confirmação restringe a autonomia”.
Essas são duas recomendações da OpenAI para que os usuários reduzam seus riscos, e um porta-voz da Atlas disse que eles também são treinados para pedir confirmação aos usuários antes de enviar mensagens ou fazer pagamentos. A OpenAI também sugere dar instruções específicas aos usuários, em vez de dar-lhes acesso à sua caixa de entrada e deixá-los “fazer o que precisarem”.
“A largura de banda ampla facilita a infiltração de conteúdo oculto ou malicioso em um agente, mesmo com proteções em vigor”, de acordo com a OpenAI.
Embora a OpenAI diga que proteger os usuários do Atlas contra injeções imediatas é uma prioridade máxima, McCarthy provoca algum ceticismo sobre o retorno do investimento para navegadores propensos a riscos.
“Para a maioria dos casos de uso diário, os navegadores dos agentes ainda não oferecem valor suficiente para justificar o perfil de risco atual”, disse McCarthy ao TechCrunch. “O seu acesso a informações sensíveis, tais como dados eletrónicos e informações de pagamento, corre um alto risco, embora o acesso seja também o que os torna poderosos. Esse equilíbrio irá evoluir, mas os desafios empresariais atuais ainda são reais.”



