Uma nova pesquisa envolvendo cientistas da Anthropica e da ETH Zurich sugere que os sistemas modernos de inteligência artificial podem identificar identidades do mundo real por trás de contas supostamente anônimas na Internet. Estude, como pré-impressão em arXivdemonstra que grandes modelos de linguagem (LLMs) podem analisar atividades online e vincular pessoas pseudônimas a pessoas reais em grande escala.
A pesquisa, intitulada Desanonimização online em larga escala com LLMs, explora como os agentes de IA podem automatizar o processo de desanonimização – o ato de conectar contas anônimas ou pseudônimas com identidades reais. Tradicionalmente, esse processo exigia uma pesquisa manual significativa por parte de analistas que examinavam formulários dispersos, formulários escritos e pesquisas on-line. No entanto, os investigadores mostram que os modelos modernos de IA podem executar muitas destas etapas automaticamente.
No estudo, um sistema de IA desenvolveu texto público a partir de plataformas online e extraiu sinais relacionados à identidade, como interesses pessoais, pistas demográficas, estilo de escrita e incidentes individuais revelados em postagens. A IA então procurou perfis correspondentes na web e avaliou se as pistas estavam alinhadas com cada personagem.
Para testar o método, os pesquisadores criaram uma variedade de conjuntos de dados com recursos de identificação de fatos reais
Um experimento tentou combinar os usuários do Hacker News com seus perfis do LinkedIn, removendo até mesmo identificadores óbvios, como nomes e nomes de usuário. Outro conjunto de dados envolveu uma cadeia de contas pseudônimas do Reddit em diferentes comunidades. Uma terceira seria dividir os dados do histórico de comentários de um usuário em duas pessoas separadas, se a IA puder reconhecer que elas pertencem à mesma pessoa.
Os resultados mostram que os sistemas baseados em LLM superam significativamente as técnicas tradicionais de descanonimização. Em alguns casos, até 68% dos modelos foram recuperados com cerca de 90% de precisão, o que significa que a IA identificou corretamente muitos recursos, mantendo uma taxa de erro relativamente baixa. Os métodos convencionais não produziram quase nenhum sucesso nas mesmas experiências.
Os pesquisadores dizem que as descobertas esclarecem como a IA pode replicar tarefas que antes eram exigidas dos pesquisadores humanos para trabalhar. Um sistema de IA pode extrair automaticamente recursos relacionados à identidade do texto, procurar possíveis correspondências entre milhares de perfis e determinar qual candidato é o mais provável.
Este desenvolvimento é significativo porque o anonimato tem sido considerado uma proteção fundamental para muitos utilizadores da Internet.
Contas pseudônimas são amplamente utilizadas por jornalistas, frases de efeito, ativistas e pessoas comuns que desejam discutir temas delicados sem revelar suas verdadeiras identidades.
O estudo sugere que esta camada de proteção – por vezes chamada de “prática obscura” – pode ser enfraquecida à medida que os sistemas de IA se tornam melhores na ligação de ligações digitais entre plataformas. Se as ferramentas automatizadas puderem executar esta tarefa de forma rápida e barata, a barreira para a identificação de ideias anônimas poderá cair drasticamente.

Os pesquisadores estimam que o custo de identificação de informações on-line usando um pipeline experimental por perfil pode ficar entre US$ 1 e US$ 4, o que significa que pesquisas em grande escala podem ser consideradas baratas.
No entanto, os autores também observam que a pesquisa foi conduzida em um ambiente controlado utilizando dados públicos. O artigo ainda não foi revisado por pares e os pesquisadores ocultaram intencionalmente quaisquer detalhes técnicos para reduzir o risco de abuso.
Além disso, as descobertas já geraram debate entre especialistas em privacidade e tecnólogos
O trabalho sugere que os indivíduos devem pensar na quantidade de informações pessoais que divulgam online – mesmo em espaços que parecem anónimos. Pesquisadores em potencial dizem que é necessário mais trabalho para identificar os riscos e as defesas contra a desanonimização impulsionada pela IA. As soluções potenciais poderiam incluir melhores ferramentas de privacidade, proteções de plataforma mais fortes ou sistemas de IA projetados para anonimizar dados confidenciais antes de serem compartilhados publicamente.
À medida que a inteligência artificial se torna mais capaz de analisar grandes volumes de conteúdo online, o estudo destaca um desafio crescente: equilibrar o poder da descoberta impulsionada pela IA com a necessidade de proteger a privacidade pessoal na era digital.



