É quase impossível exagerar a importância e o impacto do arXiv, um repositório de conhecimento ao longo do tempo; quase sozinho justificou a existência da internet. ArXiv (pronuncia-se “archive” ou “Arr-ex-eye-vee”, dependendo de quem você pergunta) é um repositório de pré-impressões onde, desde 1991, cientistas e pesquisadores anunciaram “ei, acabei de escrever isso” para o resto do mundo científico. A análise da partida caminha com frieza, mas é necessária. Como o ArXiv exige uma revisão rápida e única por um moderador em vez de uma revisão completa, ele adiciona uma etapa intermediária fácil entre a descoberta e a revisão por pares, onde todas as descobertas e inovações mais recentes podem ser tratadas com cuidado, com a urgência que merecem mais ou menos imediatamente.
Mas o uso da IA prejudicou o ArXiv e é sangrento. E é o sangue que nunca poderá limpar você.
Como um * uma história recente no Atlântico observa que o criador do ArXiv e professor de ciência da informação da Cornell, Paul Ginsparg, ficou entusiasmado com a ascensão do ChatGPT, pois a IA pode ser usada para quebrar barreiras pequenas, mas necessárias, para evitar a propagação de lixo no ArXiv. No ano passado, Ginsparg trabalhou em uma análise que analisou a probabilidade de IA em envios de arXiv. O mais chocante é que os cientistas que usaram LLMs para gerar os artigos foram aparentemente mais produtivos do que aqueles que não usaram IA. O número de artigos escritos por IA ou pôsteres aumentados foi 33% maior.
A IA pode ser legitimamente usada, diz a análise, para coisas como superar a barreira do idioma. Segue:
“No entanto, os padrões científicos tradicionais de qualidade, tais como a complexidade da linguagem, estão a tornar-se fracos indicadores de mérito à medida que experimentamos uma mudança na quantidade de trabalho científico. À medida que os sistemas de IA avançam, desafiarão os nossos pressupostos sobre a qualidade da investigação, a comunicação académica e a natureza do trabalho intelectual.”
Mas não o ArXiv. Globalmente, é um momento terrível para a estabilidade da educação em geral. Um autoproclamado espanto publicado na semana passada na Nature descreveu a desventura de um cientista de IA que trabalhava na Alemanha chamado Marcel Bucher, que usava o ChatGPT para gerar e-mails, informações, palestras e testes. Como se isso não bastasse, o ChatGPT também ajudou a analisar as respostas dos alunos e incorporou-as em partes interativas do seu ensino. Um dia então, Bucher tentou desabilitar “temporariamente” o que chamou de opção de “consentimento de dados”, e quando o ChatGPT de repente apagou todas as informações apenas no aplicativo – ou seja: nos servidores OpenAI – nas páginas da Nature eludiu que “dois anos de trabalho acadêmico diligentemente estruturado desapareceram”.
Cada vez mais, a preguiça da IA está a ser levada a manifestar-se num campo preciso, onde o rigor e a atenção aos detalhes são esperados e considerados indutores de desespero. Era seguro assumir que o número de publicações era questionável Foi lançado poucos meses depois do lançamento do ChatGPTMas agora, como relata o The Atlantic, estamos a começar a obter os detalhes sobre a própria substância e escala desse problema, não tanto a ansiedade de violação do tipo Bucher, causada pela IA, de pessoas que comem ou morrem e a pressa em falsificar papel rapidamente, mas a fraude da indústria da engenharia.
Por exemplo, na investigação do cancro, os maus actores podem ter acesso a documentos odiosos que documentam “interacções entre uma célula tumoral e apenas uma dos muitos milhares de proteínas que existem”, observa The Atlantic. Se o artigo alegar ser baseado nele, levantará sobrancelhas, uma farsa significativa deveria ser mais notada, mas se a conclusão falsa de um falso experimento com câncer for monótona, será muito mais desleixado para ser publicado – mesmo com fé confiável. É ainda melhor se as imagens de eletroforese em gel geradas forem feitas com AI Blobs, que também são enfadonhos, mas à primeira vista acrescentam probabilidade adicional.
Em suma, um rio de lixo chegou às ciências, e todos estão menos preguiçosos, desde acadêmicos ocupados ponderando sobre suas lições, até revisores e moderadores do ArXiv. Caso contrário, os repositórios de conhecimento que são utilizados entre as poucas informações genuínas que restam já estão – talvez irrevogavelmente – infectados com a doença da sobrecarga. E 2026 não parece o momento em que alguém ficará menos preguiçoso?



