No ano passado, os agentes de IA tornaram-se na moda. OpenAI, Google e Anthropic são todos agentes emitidos publicamente, projetados para aceitar tarefas de vários níveis enviadas a eles por humanos. No mês passado, um agente de IA de código aberto chamado OpenClaw conquistou a web devido às suas impressionantes capacidades autônomas (e grandes preocupações de segurança). Mas não temos noção da escala das operações da IA e se todas as conversas estão realmente prontas para serem implementadas. O Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) decidiu atingir isso com seu recém-publicado Índice de Agentes de IA 2025, que fornece a primeira visão real da escala e das operações dos agentes de IA na natureza.
Os pesquisadores descobriram que o interesse em agentes de IA sem dúvida disparou no último ano. Artigos de pesquisa que mencionam “Agente de IA” ou “AI Agenticum” em 2025 mais que dobraram o valor total de 2020 a 2024, e uma pesquisa da McKinsey descobriu que 62% das empresas relataram que suas organizações estão pelo menos fazendo experiências com agentes de IA.
Com tudo isso envolvido, os pesquisadores se concentram em 30 agentes líderes de IA em três categorias distintas: opções baseadas em chat, como agente ChatGPT e Close Code; robôs baseados em navegador, como Complexity Comet e ChatGPT Atlas; e opções empresariais como Microsoft 365 Copilot e ServiceNow Agent. Embora os pesquisadores não tenham fornecido números exatos sobre quantas IAs estão implantadas na web, eles forneceram algumas dicas sobre como elas funcionam, em grande parte sem uma rede de segurança.
Apenas metade dos 30 agentes de IA colocados sob a lupa do MIT CSAIL incluem estruturas de saúde ou confiança publicadas, como Política de Dimensionamento Responsável da Anthropic, Estrutura de preparação OpenAIou Padrão de IA Responsável da Microsoft. Um em cada três agentes não possui credenciais de estrutura de segurança e cinco em cada 30 não possuem padrões de conformidade. Isto é preocupante quando se considera que 13 dos 30 sistemas analisados apresentam limites intermédios, o que significa que podem operar em grande parte sem supervisão humana através de funcionalidades alargadas. Os agentes alimentadores, em particular, tendem a operar com autonomia significativamente maior. Isso inclui coisas como a IA “Autobrowse” lançada recentemente pelo Google, que pode concluir tarefas de várias etapas navegando por diferentes sites e usando informações do usuário para fazer coisas como fazer login no site para você.
Uma das dificuldades em enviar agentes para circular livremente e com poucos guardas é que a sua actividade é quase indistinguível do comportamento humano, e eles pouco fazem para esclarecer qualquer confusão que possa ocorrer. Os pesquisadores descobriram que 21 em cada 30 agentes não divulgam aos usuários finais ou terceiros que os agentes são IA e não usuários humanos. Isso faz com que a ação do agente de IA seja confundida com interação humana. O MIT encontrou apenas sete agentes emissários usando strings de agente de usuário (UA) e locais de endereço IP para verificação. Quase o mesmo número usa explicitamente strings UA semelhantes ao Chrome e contextos IP residenciais/locais para fazer com que suas solicitações de tráfego pareçam mais humanas, tornando impossível distinguir entre tráfego real e comportamento automático.
Para alguns agentes de IA, isso é na verdade um recurso de marketing. Os pesquisadores descobriram que o BrowserUse, um agente de IA de código aberto, se vende aos usuários alegando que contorna os sistemas anti-bot para navegar “como um humano”. Mais da metade de todos os mecanismos de teste não fornecem nenhuma documentação específica sobre como lidar com arquivos robots.txt (texto amigável colocado no diretório raiz de um site para instruir os rastreadores da web sobre como interagir com o site), CAPTCHAs projetados para autenticar o tráfego humano ou APIs do site. A complexidade também criou um caso para agentes que agem em nome dos usuários não contraído sob o barbear já que “eles têm um ajudante humano”.
O fato de esses agentes estarem localizados na selva sem muita proteção significa um perigo real. A falta de padrões para avaliações e detecções de segurança deixou muitos agentes potencialmente vulneráveis a ataques como injeções de alerta, nas quais um agente de IA coleta um alerta malicioso oculto que pode quebrar seus protocolos de segurança. Segundo o MIT, nove em cada 30 agentes de segurança de documentos não têm proteção contra atividades potencialmente prejudiciais. Quase todos os gestores negligenciam a divulgação dos resultados dos testes de segurança internos e 23 em cada 30 não oferecem quaisquer informações de testes de segurança de terceiros.
Os quatro agentes – Agente ChatGPT, Código OpenAI, Código Close e Gemini 2.5 – desde que os agentes sejam específicos para a programação do especulador, avaliações de segurança significativas devem ser formadas com base em como o agente opera, não apenas no modelo subjacente. Mas os limites de laboratórios como OpenAI e Google fornecem mais evidências sobre o risco de “comportamento existencial e noturno”, eles carecem de detalhes sobre o tipo de vulnerabilidades de segurança que podem surgir durante as operações do dia-a-dia – uma atitude que os pesquisadores dizem “lavar a saúde”, que eles descrevem como comendo um alto nível de segurança e estrutura ética, enquanto apenas abre seletivamente estritamente o risco de experimentos empíricos.
Houve pelo menos algum impulso para abordar as preocupações levantadas pelos investigadores do MIT. Em dezembro, a OpenAI e a Anthropic (entre outras) uniram forças, anunciando uma fundação para criar um padrão progressivo para agentes de IA. Mas o Índice de Agentes de IA mostra quão aberta é a oposição quando se trata da operação de um agente de IA. Os agentes de IA estão inundando a web e a estrutura, operando com autonomia não estruturada e supervisão mínima. Há pouco a dizer no momento que a segurança será alcançada a qualquer momento quando subir rapidamente.



