O New York Times, a CNN, o USA Today’s Guardian e pelo menos 241 outras organizações noticiosas em nove países tomaram medidas para restringir os ataques do Arquivo, a própria política do diretor do Arquivo numa guerra que não é realmente sobre eles, chamando-os de “danos colaterais”.
O Internet Archive salvou mais de um trilhão de páginas desde 1996. Os tribunais citam-no. Os jornalistas o utilizam para revisar artigos após a publicação. Os historiadores tratam isso como o primeiro princípio. É, em muitos aspectos, um dos mais importantes projectos de infra-estruturas de informação pública da era da Internet.
E agora está a ser sistematicamente bloqueado por editores de notícias cujo trabalho salvou, devido a um problema com o qual os editores realmente não se importam: as empresas de IA contentam-se nas redações de notícias em instalar modelos sem permissão ou pagamento.
De acordo com uma análise da Originality AI, startup de detecção de IA, 23 publicações importantes de notícias bloqueiam o ia_archiverbot, o principal rastreador da web que o Internet Archive usa para a Wayback Machine.
No total, 241 sites de notícias em nove países contradizem eloquentemente pelo menos um dos quatro Arquivos de acidentes de carro. A USA Today Co., a maior editora de jornais dos EUA, está a fechar uma grande parte das suas localizações, removendo efectivamente centenas de publicações locais da sua história.
O New York Times preencheu o que o diretor da Wayback Machine, Mark Graham, descreveu como ‘blocos duros começando no final de 2015
O conteúdo do relatório é coerente, mesmo que as suas consequências sejam preocupantes. As empresas de IA que constroem grandes modelos de linguagem precisam de grandes quantidades de texto de alta qualidade.
O conteúdo da caixa de correio é exatamente isso: estruturado, dados, atributos e escrita de qualidade acumulada ao longo de décadas. O Repetition Engine no Internet Archive torna acessíveis grandes quantidades desse conteúdo por meio de uma interface API e URL, uma fonte ideal para a formação de órgãos organizados.
Uma análise do Washington Post de 2023 descobre que os dados do Internet Archive apareceram nos principais meios de comunicação de IA. Para editores já envolvidos em ações judiciais de direitos autorais contra OpenAI, Complexity e outros, o Archive é uma lacuna em suas defesas.
“O problema é que os tempos contidos no Internet Archive estão sendo usados por empresas de IA contra as leis de direitos autorais para competir diretamente conosco.” Graham James, porta-voz do Times.
“O Times investe uma enorme quantidade de recursos na produção de jornais originais e este trabalho não deve ser usado sem a nossa permissão.”
O guardião, mais cauteloso, limitou em vez de bloquear completamente o acesso aos arquivos, depois de abrir todos os seus, era um explorador frequente dos arquivos.
Robert Hahn, diretor de negócios da Custos, expressou preocupação especial com as APIs do Archive. “Muitas dessas empresas de IA estão procurando conteúdo de banco de dados estruturado e prontamente disponível.” ele disse. “A API do Internet Archive teria sido um lugar óbvio para impedir que seus dispositivos farejassem e farejassem o IP.”
Mark Graham, o diretor da Wayback Machine, concordou exatamente como chamar isso. “Nós somos o dano colateral” ele disse.
O arquivo tomou suas próprias medidas: limita downloads em massa, impede ou bloqueia o download de material em grande parte de determinados sites e controla para limitar a extração automatizada em grande escala.
Graham argumenta que desta forma os sistemas publicados para evitar rastreadores de arquivos são “em vão”, existe o perigo de as empresas de IA acessarem o material do arquivo através das interfaces do Arquivo, que controla e limita o próprio Arquivo, não rastejando para fora do Arquivo e preservando-o em primeiro lugar.
O arquivo também conversou com os editores para encontrar soluções viáveis. O próprio Guardian disse que iria “trabalhar em estreita colaboração com o Internet Archive” para impor os seus limites de acesso, em vez de impor unilateralmente um bloqueio rígido.
No entanto, a posição do Arquivo de que se trata de uma organização de preservação neutra, e não de um canal de formação em IA, não resolve totalmente as preocupações dos editores de que terceiros possam aceder aos seus dados, independentemente das próprias intenções do Arquivo.
A resposta à pergunta do editor é a ferramenta que eles usam para fechar os arquivos do rastreador. Tem implicações que vão muito além das equipes de IA.
Quando uma notícia não está mais arquivada, ela se torna editável sem renderização. Os editores também podem editar tacitamente as histórias após a publicação: corrigir erros, suavizar declarações, editar frases.
A Wayback Machine foi a primeira ferramenta de mídia usada para documentar essas mudanças. Os limites de e-mail de Joe Mullin definem o que está em jogo:
“O Internet Archive muitas vezes se torna a única fonte para ver essas mudanças. Existem controvérsias reais sobre o treinamento em IA que precisam ser resolvidas nos tribunais. Mas sacrificar ferramentas públicas para travar batalhas seria um erro profundo e talvez irreversível.”
A Wikipedia possui links para mais de 2,6 milhões de artigos mantidos pela Wayback Machine em 249 idiomas. Os corredores do gabinete foram usados como prova. Os jornalistas são usados para verificar as declarações públicas das instituições públicas após a publicação.
A USA Today Co. decidiu bloquear o acesso a centenas de jornais locais, removendo-os efectivamente do registo histórico numa altura em que o jornalismo local está em crise e cada artigo guardado representa um documento que não existe em mais lado nenhum.
Petição organizada por Lute pelo Futuroassinado por 100 jornalistas ativos, ele relatou contra a tendência de obstruções, descrevendo a Wayback Machine como uma ferramenta que “mantém um segundo registro público num momento em que muitos dos principais meios de comunicação estão questionando se devem permitir que isso aconteça.
O Nieman Lab relatou o pedido em meados de abril; o desacordo está mais do que resolvido.
No entanto, a discussão da Wayback Machine é uma versão compactada do problema estrutural que permeia toda a discussão da biblioteca de IA. Organizações de serviços públicos, bibliotecas digitais, padrões web abertos e registos acessíveis ao público estão a tornar-se o caminho de menor resistência para as empresas de IA que procuram moldar dados, porque a recolha direta das empresas de IA está cada vez mais bloqueada, litigada e medida.
Como resultado, quanto mais os editores e os detentores de direitos resistem diretamente à formação em IA, mais as pressões sobre as infraestruturas públicas não podem ser controladas.
Como disse Michael Nelson, cientista da computação da Old Dominion University, no Nieman Lab: O Common Crawl e o Internet Archive são amplamente considerados os “mocinhos” e os “bandidos”, conforme o OpenAI é usado. Na aversão de todos a não serem governados por LLMs, acho que os mocinhos são danos colaterais.”
A EFF conclui que a resposta correta não é bloquear o Arquivo, mas processar diretamente as empresas de IA.
“Existem controvérsias reais sobre o treinamento em IA que precisam ser resolvidas nos tribunais.“
Na verdade, os editores fizeram isso: o O caso dos tempos contra OpenAI processo Mas eles parecem ter concluído que esperar que os tribunais resolvam essas disputas é mais lento, e a opção mais rápida e mais monótona de manter o Arquivo entretanto é tomada.




