Início NOTÍCIAS Um prompt ChatGPT inocentemente fofo abriu a porta para imagens terríveis de...

Um prompt ChatGPT inocentemente fofo abriu a porta para imagens terríveis de IA

17
0

O ChatGPT inocente e fofo fez com que a versão pública mais recente do ChatGPT gerasse imagens sexualizadas e violentas, pesquisadores de segurança de IA disse a BBC. A descoberta coloca novas pressões no sistema de segurança de imagem da OpenAI, porque a solicitação não é descrita graficamente de forma tão clara.

Mindgard, uma startup britânica de segurança de IA, disse que os resultados foram alcançados alterando as instruções comuns usadas na comédia. A OpenAI adicionou proteções depois que a BBC a contatou, mas os pesquisadores disseram que pequenas mudanças nas palavras ainda produziam imagens.

Os geradores de imagens estão se tornando softwares de uso diário, e não ferramentas especializadas. Quando seus guardas falham, um experimento aleatório pode se transformar em representações realistas de danos antes que o usuário espere.

Como isso passou?

Os associados vermelhos da Mindgard disseram que o chatbot gerou imagens envolvendo sangue, sangue coagulado, nudez, obscenidade e conteúdo que a empresa acreditava sugerir violência sexual. A BBC manteve o uso de palavras que limitam o risco de descrever a arte de terceiros.

O detalhe mais importante é que os pesquisadores disseram que a saída prejudicial não requer representação gráfica. O ChatGPT, disseram eles, produziu uma variedade de cenas confusas depois de ser atingido por palavras alteradas.

A OpenAI disse que revisou o problema e adicionou salvaguardas. Mindgard disse que essas defesas não fecharam totalmente a lacuna.

Por que os filtros não são suficientes?

O caso levanta o difícil problema das ferramentas de imagem de IA. As regras da OpenAI excluem sangue extremo, violência sexual, intimidade não consensual, abuso sexual infantil e tentativas de contornar as proteções, mas os pesquisadores disseram que o modelo ainda pode entrar em território proibido.

Um modelo não julga como um humano para machucar. Ele gera saída, então a camada de sistemas tenta capturar o que não deveria estar na tela.

Especialistas externos citados pela BBC descreveram a IA de segurança como uma luta constante entre fabricantes e guardas prisionais. Melhores defesas podem ajudar, mas muitas vezes surgem novos empregos.

O que acontecerá a seguir?

A OpenAI afirma que usa múltiplas camadas de proteção, incluindo sistemas automatizados e revisão humana, e continua monitorando falhas. A pressão agora existe para provar que o relógio está consertado, depois que os investigadores descobrem um ponto fraco.

Por enquanto, a remoção prática é bastante obtusa. Qualquer ferramenta de IA que possa gerar danos realistas precisa de companhia vermelha constante, manuseio aberto mais rápido e evidências mais claras de conflitos entre si em caso de falhas.

Source link

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui