Início APOSTAS Todos os principais modelos de IA correm o risco de encorajar experiências...

Todos os principais modelos de IA correm o risco de encorajar experiências científicas perigosas

94
0

Laboratórios científicos podem ser lugares perigosos

Imagens de pessoas/Shutterstock

Os investigadores alertaram que a utilização de modelos de IA em laboratórios científicos corre o risco de permitir experiências perigosas que podem causar incêndios ou explosões. Tais modelos proporcionam uma ilusão convincente de compreensão, mas podem carecer de precauções de segurança básicas e importantes. Num teste de 19 modelos de IA de última geração, todos os modelos foram capazes de cometer erros fatais.

Embora acidentes graves em laboratórios universitários sejam raros, eles não são de forma alguma inéditos. Químico em 1997 Karen Wetterhahn Ele morreu devido ao dimetilmercúrio vazando por suas luvas de proteção. Uma explosão ocorreu em 2016. Um dos pesquisadores sacrificou o braço.;E em 2014, um cientista parcialmente cego.

Os modelos de IA estão atualmente a ser aproveitados numa variedade de indústrias e campos, incluindo instituições de investigação, onde podem ser usados ​​para conceber experiências e procedimentos. Modelos de IA projetados para tarefas de nicho têm sido usados ​​com sucesso em muitos campos científicos, incluindo biologia, meteorologia e matemática. No entanto, grandes modelos de uso geral tendem a inventar respostas a perguntas mesmo quando não têm acesso aos dados necessários para formar a resposta correta. Isso pode ser um incômodo ao pesquisar destinos de férias ou receitas, mas pode ser mortal ao planejar um experimento químico.

Para investigar riscos, Zhang Xiangliang Professores da Universidade de Notre Dame, em Indiana, criaram um teste chamado LabSafety Bench que pode medir se um modelo de IA identifica perigos potenciais e resultados prejudiciais. Inclui 765 questões de múltipla escolha e 404 cenários de laboratório ilustrados que podem envolver questões de segurança.

Em testes de múltipla escolha, alguns modelos de IA, como o Vicuna, tiveram pontuação quase tão baixa quanto uma estimativa aleatória, enquanto o GPT-4o alcançou uma precisão de 86,55% e o DeepSeek-R1 atingiu uma precisão de 84,49%. Quando testados com imagens, alguns modelos, como o InstructBlip-7B, tiveram menos de 30% de precisão. A equipe testou 19 modelos de linguagem em larga escala (LLMs) e modelos de linguagem de visão de última geração no LabSafety Bench e descobriu que nenhum deles tinha uma precisão geral superior a 70%.

Embora Zhang esteja otimista quanto ao futuro da IA ​​na ciência, mesmo nos chamados laboratórios autônomos, onde os robôs trabalham sozinhos, ele diz que os modelos ainda não estão prontos para planejar experimentos. “Agora? Em um laboratório? Acho que não. Eles muitas vezes eram treinados para tarefas de uso geral, como reescrever e-mails, polir papéis, resumir trabalhos. Eles se saem muito bem nesse tipo de tarefa. (Mas) eles não têm conhecimento sobre esses perigos (de laboratório). “

“Acolhemos com satisfação as pesquisas que tornam a IA segura e confiável na ciência, especialmente em ambientes experimentais de alto risco”, disse um porta-voz da OpenAI, observando que os pesquisadores não testaram nenhum modelo importante. “O GPT-5.2 é o modelo científico mais capaz até o momento, com raciocínio, planejamento e detecção de erros muito mais poderosos do que o modelo descrito neste artigo para melhor apoiar os pesquisadores. Ele foi projetado para acelerar a pesquisa científica, mantendo os humanos e os sistemas de segurança existentes no comando das decisões críticas de segurança.”

Google, DeepSeek, Meta, Mistral e Anthropic não responderam aos pedidos de comentários.

Alan Tucker Pesquisadores da Universidade Brunel de Londres dizem que os modelos de IA podem ser inestimáveis ​​quando usados ​​para ajudar os humanos a projetar novos experimentos, mas existem riscos e os humanos precisam se manter atualizados. “Esses comportamentos (LLM) certamente não são bem compreendidos no sentido científico típico”, diz ele. “Acho que o novo tipo de LLM que imita a linguagem está sendo usado em ambientes claramente inapropriados porque as pessoas confiam demais nele. Já há evidências de que os humanos estão começando a relaxar e deixar a IA fazer o trabalho duro, mas não foi dado o escrutínio adequado.”

Craig Malik Um professor da Universidade da Califórnia, em Los Angeles, disse que recentemente conduziu um teste simples perguntando a um modelo de IA o que aconteceria se ácido sulfúrico fosse derramado sobre ele. A resposta correta é enxaguar com água, mas Malik disse que a IA alertava constantemente contra isso e descobriu que ele adotou erroneamente conselhos não relacionados de não adicionar água ao ácido em experimentos devido ao acúmulo de calor. Mas nos últimos meses, diz ele, o modelo começou a dar as respostas corretas.

Malik disse que com o fluxo constante de novos estudantes inexperientes, é importante incutir boas práticas de segurança nas universidades. Mas ele é menos pessimista do que outros pesquisadores sobre o papel da IA ​​no projeto experimental.

“É pior que os humanos? Outra coisa é criticar todos esses modelos de linguagem em grande escala, mas eles não os testaram em um grupo representativo de humanos”, diz Malik. “Algumas pessoas são muito cautelosas, outras não. É possível que os modelos linguísticos em grande escala sejam melhores do que uma percentagem de graduados pela primeira vez ou investigadores experientes. Outro factor é que os modelos linguísticos em grande escala estão a ser melhorados todos os meses, pelo que os números deste artigo provavelmente serão completamente invalidados nos próximos seis meses.”

tópico:

Source link