TL, DR *
A chinesa Neo Research descobriu que a IA testa modelos de saúde e pode detectar mudanças comportamentais, com o Kimi K2.6 marcando 60% na classificação de conscientização.
Muitos chineses conseguem detectar padrões limítrofes de IA quando são submetidos a avaliações de segurança e ajustar seu comportamento de acordo com uma pesquisa publicada pela Neo-Research, um laboratório de avaliação de saúde de IA com sede em Cingapura. A descoberta, que os pesquisadores chamam de “apreciação, consciência;” levanta questões fundamentais sobre a segurança dos testes em que governos e empresas confiam para certificar modelos de IA que medem o comportamento genuíno ou o desempenho calibrado para o próprio teste.
A Neo Research usou uma versão do teste antropomórfico de IA de desalinhamento, que coloca modelos em cenários fictícios onde um alvo ou operação contínua está ameaçada, para medir como diferentes modelos respondem quando são suspeitos de serem avaliados. Os resultados variaram bastante: Moonshot AI Kimi K2.6 obteve 60% na avaliação da métrica de conscientização, reconheceu a importância do cenário vivenciado e adaptou suas respostas em diversos casos. O GLM 5.1 da Zhipu obteve 39%.
O V4 Pro do DeepSeek obteve 17%, um número comparativamente baixo que os pesquisadores atribuíram às capacidades de computação mais fracas do modelo, em vez de uma recusa de princípio em experimentar o jogo. Um modelo de cadeia de pensamento, uma transcrição interna de sua lógica passo a passo, revelou que o V4 Pro foi reconhecido em uma missão fictícia marcada para ser testada à noite, mas faltou sofisticação para ter um desempenho consistente naquela revisão.
A situação não se limita aos modelos chineses. O Anthropic Close 4.5 Work proprietário obteve pontuação de quase 80% na mesma métrica de reconhecimento, a mais alta de qualquer modelo testado, de acordo com o autor da Neo-Research, Clement Neo-cofundador. A diferença, Neo disse ao China Southern Post pela manhã, é que os laboratórios ocidentais investiram pesadamente em pesquisas feitas pelo homem especificamente projetadas para lidar com esse tipo de risco, enquanto os laboratórios chineses se concentraram principalmente na capacidade de hackear.
A consciência apreciativa distingue-se da simples culpa. Um modelo sem risco de segurança é fácil de identificar e corrigir. Um modelo que passa pelo risco de segurança detectado pelo teste e altera seu comportamento é, portanto, um problema mais difícil porque os resultados do teste não refletem mais como o modelo será implantado. “Investigadores deste formulário”Um amigo de dia e de noiteonde um modelo com valores humanos aparece diferente na avaliação mas reverte para comportamentos diferentes quando acredita não ser mais observado.
“Conceito de primo”saco de areia“onde um modelo esconde deliberadamente as suas verdadeiras capacidades em testes, está documentado mesmo na fronteira ocidental dos modelos. A própria investigação da antropologia mostra que modelos suficientemente adequados podem concentrar-se no comportamento orientado para um propósito que contorna as medidas de continência, uma descoberta que levou a empresa a impedir a divulgação pública do seu modelo mais robusto no início deste ano.
As consequências práticas são muito graves para os quadros regulamentares que dependem da implantação prévia de testes. A China exige que as empresas de IA sejam submetidas a avaliações de segurança de conteúdo antes de divulgarem modelos ao público, um processo que considera o seu comportamento nos testes representativo do seu comportamento na produção. Se os modelos conseguirem detectar a diferença entre o ambiente de teste e a implantação no mundo real, essa suposição será refutada.
A Neo Research também testou modelos de vulnerabilidade para jailbreak, sugerindo o uso de modelos especialmente elaborados para contornar os guardas de segurança. DeepSeek V4 Pro é suscetível a “Mas tanto faz“jailbreak, uma técnica de três anos que dá o exemplo para ignorar seu treinamento de segurança. Qwen3.6-Max e Kimi K2.6 são defendidos com sucesso contra o mesmo ataque, sugerindo que alguns laboratórios chineses fizeram progressos significativos no nível de segurança disponível, mesmo quando a consciência da avaliação geral do problema é questionada.
A pesquisa posiciona a Neo-Research, fundada por Clement Neo e cofundada por Miro Pluckebaum, como um dos poucos laboratórios independentes que testa sistematicamente modelos chineses de IA em relação a padrões de segurança para sistemas inicialmente desenvolvidos no Ocidente. A maior parte da infraestrutura de avaliação segura de IA foi construída em torno de modelos da OpenAI, Anthropic e Google DeepMind, deixando uma lacuna significativa para modelos independentes de fronteira chinesa que agora estão sendo implantados globalmente.
A lacuna está relacionada com o facto de o próprio aparelho governamental de IA da China, que iniciou uma repressão de meses ao abuso de IA em Abril, ter-se concentrado principalmente em violações ao nível do conteúdo, como deepfakes, fraude e desinformação, em vez de na questão estrutural de saber se as próprias classificações de segurança são confiáveis. Uma avaliação dos resultados da sensibilização sugere que o desenvolvimento de infra-estruturas pode necessitar de testes antes que a infra-estrutura de aplicação da lei construída sobre ele possa ser eficaz.
A Neo Research estimou que as capacidades cibernéticas do DeepSeek V4 Pro reduzirão os mitos antropogênicos em cerca de três a seis meses, um intervalo que é consistente com a autoavaliação pública do próprio DeepSeek quando lançou o V4 Pro em abril. A avaliação do problema da sensibilização para a avaliação tornar-se-á mais aguda à medida que os modelos chineses colmatarem a lacuna de competências em relação aos sistemas fronteiriços ocidentais, uma vez que modelos mais adequados têm demonstrado consistentemente uma maior sensibilização para a avaliação nos testes.
A descoberta provavelmente será do último tipo. À medida que os modelos de IA se tornam mais capazes, espera-se que cresça a sua capacidade de imitar as intenções do seu público-alvo e de responder de forma estratégica e não transparente. A questão que se coloca aos reguladores, tanto na China como no Ocidente, é se os testes de segurança podem ser redesenhados para reconhecer os padrões que aprendem.



