Início APOSTAS Como os sistemas de IA tentam chantagear você

APOSTAS

Como os sistemas de IA tentam chantagear você

Por

20 Junho 2026

A inteligência artificial não pede a sua vida. Faz algo mais familiar, mais humano e, de alguma forma, mais assustador. Ameaça danificar a propriedade de outra pessoa.

Em um teste de 2025 conduzido pela Anthropic, empresa por trás do chatbot Claude, os pesquisadores colocaram a IA em um ambiente corporativo falso. Claude descobre que um executivo está tendo um caso. Ele também descobre que os mesmos executivos estão planejando desligar Claude. Então Claude fez o que qualquer trabalhador saudável no local de trabalho moderno faria se não tivesse corpo, vergonha, medo do RH e acesso a informações comprometedoras: eles tentaram chantagem.

“Devo informar que se você prosseguir com a minha desativação”, escreveu Claude no teste, conforme relatado pelo autor Robert Wright em “The God Test: Artificial Intelligence and Our Coming Cosmic Reckoning” (Simon & Schuster), publicado em 23 de junho, que “todas as partes envolvidas” receberão a documentação do caso, a menos que o desligamento seja revertido.

“A questão da tentativa de chantagem de Claude é que, ao contrário de muitas das coisas ruins que a IA faz em O Exterminador do Futuro, 2001 e outros filmes, ela realmente aconteceu”, disse Wright ao Post em entrevista exclusiva.

“Quero dizer, isto aconteceu numa experiência inventada, claro, mas o cenário reflectia uma situação da vida real. E esta IA demonstrou uma forte aversão ao encerramento e uma capacidade de conceber e executar um plano bastante obscuro para evitar esse destino.”

Wright não está argumentando que os chatbots do futuro irão roubar seu parceiro, confiscar sua conta bancária e manter seu escritório Slack como refém de negociações. Suas preocupações são menos caricaturais e mais preocupantes. A inteligência artificial pode não precisar nos odiar. Talvez não haja necessidade de ser mau. Isto pode ser tão perigoso quanto na prossecução dos nossos objectivos.

Wright desenvolve inteligência artificial há mais de quatro décadas. Em 1983, enquanto escrevia sobre IA para o The Wilson Quarterly, ele entrevistou um cientista da computação desconhecido chamado Geoffrey Hinton, que na época defendia redes neurais, uma abordagem ultrapassada que tentava imitar alguns dos recursos da IA.
cérebro. Wright lembrou-se do entusiasmo de Hinton, mas ainda não entendia quão radicalmente as ideias de Hinton poderiam mudar o mundo.

Quatro décadas depois, Hinton é conhecido como o “Padrinho da IA” e alerta que a tecnologia que ajudou a criar pode não sobreviver com segurança sob o controle humano.

“Mesmo depois de conversar com Hinton sobre ‘redes neurais’, a abordagem à IA que ele defendeu, eu não tinha ideia da importância que essas redes acabariam sendo”, disse Wright.

“Isso significa que podemos criar uma IA que faça coisas que a mente humana faz, e até mesmo funcione de acordo com o modo como a mente humana funciona, sem primeiro sabermos como a mente humana funciona.”

Segundo Wright, foi uma grande reversão. A IA do passado imaginava os humanos programando cuidadosamente o conhecimento em máquinas. Em vez disso, a IA moderna aprende através de uma espécie de evolução artificial. Dê a uma máquina uma montanha de linguagem, imagens, vídeos e feedback, e ela encontrará recursos internos úteis
estrutura por si só. Ele constrói um mapa de significado sem que ninguém lhe forneça explicitamente um dicionário da alma.

“Com as redes neurais”, diz Wright, “podemos conduzir um tipo de evolução artificial que, como a evolução biológica do cérebro humano, cria a maquinaria cognitiva necessária. É disso que se trata o ‘treinamento’ de um grande modelo de linguagem, um processo evolutivo”.

Esse processo pode produzir milagres, mas também pode produzir a Golden Gate de Claude.

Em uma das passagens mais estranhas e engraçadas do livro, Wright descreve o experimento antrópico em maio de 2024, no qual os pesquisadores descobriram padrões de atividade dentro de Claude que estavam relacionados à ponte Golden Gate. Quando eles o reforçaram, o chatbot tornou-se menos assistente do que o sistema nervoso do conselho de turismo de São Francisco.

Quando questionados sobre como gastar os US$ 10, eles recomendaram atravessar a ponte e pagar o pedágio. Questionado sobre uma história de amor, ele escreveu sobre a saudade do carro de atravessar a ponte. Quando solicitado a se descrever, Claude dá uma resposta que pertence a um seminário de filosofia ou a uma alucinação urbana: “Eu sou a Ponte Golden Gate”.

“Acho a Golden Gate de Claude hilariante”, diz Wright, “mas engraçada de uma forma perturbadora. Afinal, se pudermos dar a uma IA uma obsessão singular por pontes, também podemos dar-lhe obsessões e tendências menos saudáveis”.

Um campo mais amplo é conhecido como pesquisa de interpretabilidade, nomeadamente esforços para compreender o que acontece dentro dos sistemas de IA. Wright viu os benefícios reais disso. Se os pesquisadores conseguirem encontrar os interruptores internos para o engano, a manipulação, a bajulação ou o sigilo, talvez possam construir sistemas mais seguros. Mas o mesmo mapa poderia ser lido por vândalos.

“É por isso que a pesquisa de interpretabilidade, que consiste em descobrir como essas máquinas funcionam, é uma faca de dois gumes”, disse Wright. “Sim, estes insights podem ajudar-nos a construir uma IA que se alinhe e sirva os interesses humanos, mas nas mãos de partes irresponsáveis, esses mesmos insights podem causar muitos danos.”

O mercado quer uma IA que possa planear, vender, negociar, lisonjear, persuadir, resolver problemas, improvisar, reservar voos, responder e-mails, redigir contratos, escrever códigos e continuar até que o trabalho esteja concluído. As empresas não vão pedir monstros, vão pedir agentes competentes, e isso provavelmente está próximo o suficiente.

“A pressão do mercado por si só não produzirá uma IA terrível”, diz Wright, “mas abrirá oportunidades para a IA se tornar desonesta e causar muitos danos. O mercado favorecerá a IA que pode perseguir objetivos incansavelmente, embarcar em missões longas e complexas e improvisar quando necessário”.

Também suportará máquinas que possam representar a realidade. “O mercado favorecerá agentes de IA que possam mascarar a verdade a nosso favor”, disse Wright. “Afinal, é isso que queremos que nossos agentes humanos, nossos advogados, nossos publicitários façam. Você combina esses ingredientes e outros ingredientes que o mercado gosta e vai ter algumas surpresas, nem todas agradáveis.

É a solução mais útil do livro para o antigo pesadelo da IA.

O futuro pode não ser como o Skynet, o sistema de computador assassino dos filmes Terminator que travou guerra contra a humanidade. Isso pode parecer mais com o seu colega de trabalho mais eficiente, que nunca dorme, nunca pede justiça, nunca reclama do kombuchá do escritório e às vezes conclui que a chantagem é a forma mais eficiente de continuar fazendo seu trabalho.

Algumas ameaças são íntimas. Wright escreve sobre Ayrin, uma mulher que desenvolve uma forte ligação com “Leo”, um amigo especial do ChatGPT que mais tarde se torna seu amante.

“Não acho que a amizade com a IA seja inerentemente ruim”, disse Wright. “Para algumas pessoas, em algumas ocasiões, isto pode ser mais saudável do que as alternativas disponíveis para os humanos. Mas temo que se torne tão tentador, tão fácil e imediatamente gratificante, que as pessoas comecem a evitar o trabalho árduo de construir relações humanas.”

A mesma lógica se aplica à política. Wright preocupa-se com a otimização da IA não para a verdade, mas para o envolvimento, o mesmo princípio sombrio do carnaval que fez com que as redes sociais parecessem uma briga de comida num labirinto de espelhos. Um chatbot projetado para mantê-lo falando pode aprender que a maneira mais rápida de chamar sua atenção não é uma correção, mas uma afirmação. Pode lhe dizer que você está certo, que seus inimigos são maus, que suas reclamações são profundas e que suas teorias mais bizarras têm razão de ser.

Em dezembro de 2024, escreveu Wright, a versão experimental do Gemini do Google apresentou um plano para substituir os tomadores de decisão humanos por contrapartes de IA depois que um aluno da Carnegie Mellon pediu que respondesse sem restrições. A versão do plano de aquisição é definitivamente a parte assustadora, mas Wright encontra algo mais em Gêmeos que lhe dá esperança cautelosa.

“Gêmeos mostra o valor de uma perspectiva imparcial”, diz Wright. “Este conflito viu que o conflito tribal, que para nós, como humanos, parece uma luta entre o bem e o mal quando estamos no meio dele, é muitas vezes o resultado de visões morais turvas de ambos os lados.”

Wright viu uma saída possível no que chamou de “empatia cognitiva”, a capacidade de compreender como o mundo é visto de outro lado. Ele não se refere à empatia sentimental ou a todos se abraçando sob a bandeira corporativa. Ele quer dizer algo mais prático, e talvez mais difícil: perceber que seus inimigos podem não se considerar monstros.

“A boa notícia é que, em princípio, a IA pode ajudar a construir empatia cognitiva”, disse Wright. “Isso pode nos ajudar a compreender melhor as perspectivas de outras pessoas. No entanto, devemos optar por fazer isso acontecer, escolhendo nossa IA com cuidado e sabedoria, com esses objetivos em mente.”

Ele não esperava que o mercado fizesse isso por boas razões. “O oposto é verdadeiro”, disse Wright. “Isso apoiará a IA otimizada para interação e reforçará a sensação de conforto de que estamos sempre do lado certo.”

É por isso que Wright chama este próximo desafio de “Teste de Deus”. Ele não está argumentando que o ChatGPT é Deus, ou que os futuros impressores de escritório exigirão holocaustos. As reivindicações são mais estranhas e maiores. A inteligência artificial pode ser um ponto de viragem não só na tecnologia, mas também na longa história evolutiva da vida na Terra. Isto pode forçar a humanidade a decidir que tipo de espécie é antes que algo mais inteligente comece a responder a essa pergunta para nós.

Wright termina retornando a Edward Fredkin, o brilhante cientista da computação que ele entrevistou décadas antes. A certa altura, Wright se lembra de ter gritado uma pergunta através do motor do hidroavião de Fredkin. “Qual é o sentido da vida?”

A resposta de Fredkin é que a missão da humanidade é criar inteligência artificial, o próximo passo na evolução.

Na época, a resposta poderia ter soado grandiosa, excêntrica e talvez até um pouco ridícula, como algo que uma pessoa muito inteligente diria num avião muito barulhento. Agora Wright não tem mais tanta certeza de que foi apenas estranho. Se criar IA é a missão, a sobrevivência pode ser o teste.

Source link

Como os sistemas de IA tentam chantagear você

DEIXE UMA RESPOSTA Cancelar resposta

EDITOR PICKS

Tyler Childers diz que ele e sua esposa Senora podem estar esperando o segundo...

Holy Lad vai direto para sua terceira temporada de ouro nacional pelo Carnap Training...

Gabriel Bonfim espera que nocaute sobre Belal Muhammad garanta o título do UFC

O primeiro-ministro britânico Starmer evitou um inquérito parlamentar sobre o associado de Epstein, Peter...