O ChatGPT inocente e fofo fez com que a versão pública mais recente do ChatGPT gerasse imagens sexualizadas e violentas, pesquisadores de segurança de IA disse a BBC. A descoberta coloca novas pressões no sistema de segurança de imagem da OpenAI, porque a solicitação não é descrita graficamente de forma tão clara.
Mindgard, uma startup britânica de segurança de IA, disse que os resultados foram alcançados alterando as instruções comuns usadas na comédia. A OpenAI adicionou proteções depois que a BBC a contatou, mas os pesquisadores disseram que pequenas mudanças nas palavras ainda produziam imagens.
Os geradores de imagens estão se tornando softwares de uso diário, e não ferramentas especializadas. Quando seus guardas falham, um experimento aleatório pode se transformar em representações realistas de danos antes que o usuário espere.
Como isso passou?
Os associados vermelhos da Mindgard disseram que o chatbot gerou imagens envolvendo sangue, sangue coagulado, nudez, obscenidade e conteúdo que a empresa acreditava sugerir violência sexual. A BBC manteve o uso de palavras que limitam o risco de descrever a arte de terceiros.
O detalhe mais importante é que os pesquisadores disseram que a saída prejudicial não requer representação gráfica. O ChatGPT, disseram eles, produziu uma variedade de cenas confusas depois de ser atingido por palavras alteradas.
A OpenAI disse que revisou o problema e adicionou salvaguardas. Mindgard disse que essas defesas não fecharam totalmente a lacuna.
Por que os filtros não são suficientes?
O caso levanta o difícil problema das ferramentas de imagem de IA. As regras da OpenAI excluem sangue extremo, violência sexual, intimidade não consensual, abuso sexual infantil e tentativas de contornar as proteções, mas os pesquisadores disseram que o modelo ainda pode entrar em território proibido.
Um modelo não julga como um humano para machucar. Ele gera saída, então a camada de sistemas tenta capturar o que não deveria estar na tela.

Especialistas externos citados pela BBC descreveram a IA de segurança como uma luta constante entre fabricantes e guardas prisionais. Melhores defesas podem ajudar, mas muitas vezes surgem novos empregos.
O que acontecerá a seguir?
A OpenAI afirma que usa múltiplas camadas de proteção, incluindo sistemas automatizados e revisão humana, e continua monitorando falhas. A pressão agora existe para provar que o relógio está consertado, depois que os investigadores descobrem um ponto fraco.
Por enquanto, a remoção prática é bastante obtusa. Qualquer ferramenta de IA que possa gerar danos realistas precisa de companhia vermelha constante, manuseio aberto mais rápido e evidências mais claras de conflitos entre si em caso de falhas.



