Início APOSTAS Como o envenenamento por IA combate bots que monitoram dados sem permissão

Como o envenenamento por IA combate bots que monitoram dados sem permissão

23
0

Já se foi o tempo em que a web era dominada por humanos postando atualizações nas redes sociais e trocando memes. Pela primeira vez desde que os dados foram rastreados no início deste ano, Bots de navegação na Web, não humanosque representou a maior parte do tráfego da web.

Mais da metade desse tráfego de bots vem de bots maliciosos, que, por exemplo, trollam dados pessoais deixados desprotegidos online. Mas uma parcela cada vez maior vem de bots enviados por empresas de inteligência artificial para coletar dados para modelos ou responder a solicitações de usuários. Na verdade, ChatGPT-User, o bot que alimenta o ChatGPT da OpenAI, é atualmente responsável por 6% de todo o tráfego da web, e ClaudeBot, o sistema de automação desenvolvido pela empresa de IA Anthropic, é responsável por 13%.

As empresas de IA afirmam que essa coleta de dados é essencial para manter seus modelos atualizados. Mas os criadores de conteúdo pensam de forma diferente, vendo os bots de IA como ferramentas para pirataria em grande escala. Por exemplo, no início deste ano, a Disney e a Universal processaram a empresa de IA Midjourney, alegando que o gerador de imagens da empresa plagiou personagens de séries populares como: guerra nas estrelas e meu Malvado Favorito.

Poucos criadores de conteúdo têm fundos para processar, então alguns contra-atacam de maneiras mais extremas. Os bots de IA usam ferramentas online que tornam mais difícil encontrar ou manipular seu conteúdo. Engane o bot para que ele faça uma leitura erradaAssim a IA vai começar a confundir imagens de carros com imagens de vacas, por exemplo. Mas embora esse “envenenamento por IA” possa ajudar os criadores de conteúdo a proteger seu trabalho, também pode, involuntariamente, tornar a web um lugar mais perigoso.

violação de direitos autorais

Durante séculos, os imitadores obtiveram lucros rápidos copiando o trabalho dos artistas. Esta é uma das razões pelas quais existem leis de propriedade intelectual e direitos autorais. No entanto, nos últimos anos, este problema tornou-se ainda mais agudo com o advento de geradores de imagens de IA, como Midjourney e DALL-E da OpenAI.

Uma preocupação central nos Estados Unidos é a chamada doutrina do uso justo. Isso permite que você use amostras de material protegido por direitos autorais sob certas condições, sem solicitar permissão do detentor dos direitos autorais. A lei de uso justo é intencionalmente flexível, mas em sua essência está a ideia de que uma obra original pode ser usada para criar algo novo, desde que a obra original seja suficientemente modificada e não afete negativamente o mercado da obra original.

Muitos artistas, músicos e outros ativistas argumentam que as ferramentas de IA estão confundindo a linha entre uso justo e violação de direitos autorais às custas dos criadores de conteúdo. Por exemplo, não é necessariamente prejudicial para alguém fazer um desenho do Mickey Mouse, por exemplo, no mundo dos Simpsons, para seu próprio entretenimento. Mas a IA permite que qualquer pessoa crie tais imagens em grandes quantidades e rapidamente, levantando questões sobre a natureza transformadora do ato. Depois de criar essas imagens, será fácil criar diferentes camisetas baseadas nelas. Por exemplo, atravessa o espectro do uso pessoal ao comercial e viola a doutrina do uso justo.

Alguns criadores de conteúdo nos Estados Unidos, ansiosos por proteger os seus interesses comerciais, estão a tomar medidas legais. O processo da Disney e da Universal contra Midjourney, que começou em junho, é apenas o exemplo mais recente. Além disso, Batalha legal em curso entre tempos de Nova York e OpenAI Suspeita de uso de artigos de jornal sem permissão.

CPR5D2 Rei Leão

A Disney processa a empresa de IA Midjourney, alegando que seu gerador de imagens plagia personagens da Disney.

Foto 12/Alamy

As empresas de IA negam veementemente qualquer irregularidade e afirmam que a coleta de dados é permitida de acordo com os princípios de uso justo. em Carta aberta ao Escritório de Política Científica e Tecnológica dos EUA Em março, o diretor de assuntos internacionais da OpenAI, Chris Lehane, alertou que outras partes do mundo possuem regras rígidas de direitos autorais em vigor. Foram feitas tentativas para fornecer proteção de direitos autorais mais forte Para os criadores de conteúdo, “a inovação e o investimento estão sendo sufocados”. A OpenAI disse anteriormente que é “impossível” desenvolver modelos de IA que atendam às necessidades das pessoas sem usar material protegido por direitos autorais. O Google tem uma visão semelhante. Numa carta aberta também publicada em março, a empresa afirmou: “Três áreas da lei podem impedir-nos de aceder adequadamente aos dados necessários para treinar modelos-chave: direitos de autor, privacidade e patentes”.

Mas, pelo menos por agora, os activistas parecem ter o tribunal da opinião pública do seu lado. O site IPWatchdog analisou as respostas públicas à Pesquisa de Direitos Autorais e IA do U.S. Copyright Office e descobriu que: 91% dos comentários Continha sentimentos negativos em relação à IA.

O que não ajuda as empresas de IA a repercutir junto ao público é a suspeita de que seus bots estão enviando muito tráfego para alguns sites. eles estão sobrecarregando recursos e talvez Até mesmo forçando alguns sites offline – e que os criadores de conteúdo não têm poder para impedir isso. Por exemplo, existem técnicas que os criadores de conteúdo podem usar para optar por não permitir que bots rastreiem seus sites, incluindo a reconfiguração de um pequeno arquivo no centro do site para indicar que os bots são proibidos. No entanto, há indicações de que os bots às vezes podem fazer coisas como: Por favor, ignore tais solicitações Continue rastejando.

Envenenamento de dados de IA

Não é de admirar, então, que novas ferramentas estejam sendo disponibilizadas para criadores de conteúdo que oferecem proteção mais forte contra bots de IA. Uma dessas ferramentas foi anunciada este ano pela empresa de infraestrutura de Internet Cloudflare. Um serviço que protege os usuários contra ataques distribuídos de negação de serviço (DDoS). Em um ataque DDoS, um invasor inunda um servidor web com tráfego, forçando o próprio site a ficar offline. Para combater bots de IA que podem representar riscos como DDoS, a Cloudflare está combatendo fogo com fogo. Cloudflare gera um labirinto de páginas geradas por IA cheias de conteúdo sem sentido, e o bot de IA gasta todo o seu tempo e energia olhando para o conteúdo sem sentido em vez das informações reais que procura.

ferramenta conhecida como Labirinto de IAfoi projetado para capturar 50 bilhões de solicitações diárias de rastreadores de IA que a Cloudflare afirma encontrar em sites de sua rede. De acordo com a Cloudflare, o AI Labyrinth deve “desacelerar, confundir e desperdiçar recursos em rastreadores de IA e outros bots que não respeitam as instruções de ‘não rastrear’”. Cloudflare foi lançado posteriormente outra ferramentaExige que as empresas de IA paguem uma taxa para acessar seu site e, de outra forma, as impede de rastrear seu conteúdo.

Outro método permite que bots de IA acessem conteúdo online, mas o “contamina” sutilmente de uma forma que torna os dados menos úteis para os propósitos do bot. ferramenta esmalte e SolanáceasUm desenvolvido na Universidade de Chicago é fundamental para esta forma de resistência. Ambos podem ser baixados gratuitamente no site da universidade e executados no seu computador.

Glaze, lançado em 2022, funciona defensivamente, aplicando mudanças imperceptíveis no nível de pixel, ou “capas de estilo”, ao trabalho de um artista. Estas mudanças, que são invisíveis para os humanos, podem fazer com que os modelos de IA interpretem mal o estilo da arte. Por exemplo, uma pintura em aquarela pode ser reconhecida como uma pintura a óleo. Nightshade, lançado em 2023, é uma ferramenta mais agressiva que contamina dados de imagens de uma forma que incentiva os modelos de IA a fazerem associações falsas, como aprender a associar a palavra “gato” à imagem de um cachorro. Ambas as ferramentas foram baixadas mais de 10 milhões de vezes.

Figura 7. Imagens de exemplo produzidas por um modelo SD-XL contaminado com Nightshade e um modelo SD-XL limpo quando solicitado com um conceito contaminado.

A ferramenta Nightshade envenena progressivamente os bots de IA e faz os cães parecerem gatos

Ben Y. Zhao

Ele diz que ferramentas venenosas de IA devolveram o poder às mãos dos artistas. Ben Jao Ele é pesquisador sênior de Glaze e Nightshade na Universidade de Chicago. “São empresas com valor de mercado de trilhões de dólares, literalmente as maiores empresas do mundo, e estão tomando o que querem à força”, diz ele.

Usar ferramentas como Zhao é uma forma de os artistas exercerem o pouco poder que têm sobre como seu trabalho é usado. “Glaze e Nightshade são ferramentas realmente interessantes e legais que mostram uma maneira elegante de fazer as coisas que não depende de mudanças regulatórias, o que pode consumir muito tempo e não ser um local favorável aos artistas”, diz ele. Jacob Hoffman-Andrews Na Electronic Frontier Foundation, uma organização sem fins lucrativos de direitos digitais com sede nos EUA.

Ele diz que a ideia de autodestruição de conteúdo para eliminar suspeitos de imitação não é nova. Eleonora Rosati Na Universidade de Estocolmo, Suécia. “No passado, quando havia um uso indevido em grande escala de bancos de dados, desde listas telefônicas até listas de patentes, era recomendado inserir alguns erros para ajudar do ponto de vista probatório”, diz ela. Por exemplo, os cartógrafos podem incluir intencionalmente nomes de lugares falsos em seus mapas. Se esses pseudônimos aparecerem em mapas criados por seus concorrentes, você terá evidências claras de plágio. Essa prática ainda chega às manchetes: site de letras de músicas Genius Ele teria inserido vários tipos de apóstrofos. Argumentou que isso mostrava que o Google estava usando o conteúdo sem permissão. O Google negou as acusações e o processo da Genius contra o Google foi rejeitado.

De acordo com Hoffman Andrews, até mesmo chamar isso de “sabotagem” é discutível. “Não acho necessariamente que seja sabotagem”, diz ele. “São artistas que aplicam suas próprias edições às suas próprias imagens. Os artistas são livres para manipular seus próprios dados.”

Não está claro até que ponto as empresas de IA estão a tomar medidas por conta própria para combater este envenenamento do poço, tais como ignorar ou tentar remover conteúdo marcado com este veneno dos seus dados. No entanto, as tentativas de Zhao de subverter o seu sistema mostraram que o Glaze ainda era 85% eficaz contra todas as contramedidas possíveis, sugerindo que as empresas de IA podem concluir que trabalhar com dados contaminados é mais problemático do que vale a pena.

espalhar notícias falsas

Mas os artistas com conteúdo a proteger não são os únicos a experimentar envenenar o poço contra a IA. Alguns Estados-nação podem estar a utilizar princípios semelhantes para promover uma narrativa falsa. Por exemplo, o think tank Atlantic Council, com sede nos EUA, descobriu no início deste ano que a rede de notícias russa Pravda (seu nome significa “verdade” em russo) envenenamento usado Enganar um bot de IA para espalhar notícias falsas.

A abordagem do Pravda, diz o think tank, envolve a publicação de milhões de páginas da web, algo como o AI Labyrinth da Cloudflare. Mas, neste caso, o Atlantic Council afirma que as páginas foram concebidas para parecerem notícias genuínas e estão a ser utilizadas para promover a narrativa do Kremlin sobre a guerra da Rússia na Ucrânia. O grande volume de histórias pode fazer com que os rastreadores de IA enfatizem excessivamente certas histórias ao responder aos usuários, descobriu uma análise publicada este ano pela NewsGuard, uma empresa de tecnologia dos EUA que rastreia as atividades da Pravda Airlines. Os 10 principais chatbots de IA produzem texto consistente com as opiniões do Pravda Em um terço dos casos.

O relativo sucesso da mudança conversacional destaca um problema inerente à IA em geral. Isso significa que truques tecnológicos usados ​​por bons atores com boas intenções sempre podem ser usados ​​por maus atores com propósitos nefastos.

Mas existem soluções para estes problemas, diz Zhao, mas podem não ser algo que as empresas de IA estejam dispostas a considerar. Em vez de recolher indiscriminadamente todos os dados que conseguem encontrar online, as empresas de IA podem celebrar acordos formais com fornecedores de conteúdos legítimos para garantir que apenas dados confiáveis ​​sejam utilizados para treinar os seus produtos. No entanto, esta abordagem tem um custo, uma vez que os acordos de licenciamento podem ser caros. “Essas empresas estão relutantes em licenciar o trabalho desses artistas”, diz Zhao. “O dinheiro está na raiz de tudo.”

tópico:

  • inteligência artificial/
  • Bate-papo GPT

Source link

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui