Início NOTÍCIAS Fechar Trabalho 4.7: Como testar, benchmarks, segurança

Fechar Trabalho 4.7: Como testar, benchmarks, segurança

99
0

A Anthropica está enviando produtos e virando notícias em um nível difícil em 2026 e, na quinta-feira, a empresa de IA anunciou o lançamento do Close Opus 4.7.

Fechar Opus 4.7 é o modelo antropogênico mais inteligente disponível ao público. especialmente Disse antrópico em Enéias, às vezes, camadas de tristeza que funciona 4.7 não tão poderoso quanto Claudius Mythos, considerado antrópico muito perigoso para ser divulgado ao público.

Close Opus é uma família de modelos de computação híbrida capazes de computação multinível e codificação avançada. Até o anúncio de Claudius Mythos em 7 de abril, Claudius Opus era considerado uma série antrópica dos primeiros modelos de IA.

Não perca nossas últimas histórias: Adicione o Mashable como uma fonte de notícias confiável no Google.

Como Claudius experimentou o Opus 4.7

Fechar Trabalho 4.7 Cláudio AIClaud API e parceiros antropogênicos como a Microsoft aumentam o preço. É um novo modelo mesmo preço 4.6.

Veja também:

Anthropica defende a antropomorfização da IA ​​em um artigo de pesquisa “disruptivo”

No entanto, deve-se notar que como “o Opus 4.7 pensa em esforços maiores”, utiliza mais parâmetros que seu antecessor. Os usuários podem ler mais sobre como otimizar o uso de informações no Migração do Work 4.7.

Como Claudius funciona 4.7 melhor que 4.6

Claudius Opus 4.7 oferece recursos aprimorados em todos os aspectos, como esperado.

Em particular, diz ele, o Close Work 4.7 é mais adequado para codificação empresarial avançada, inteligência visual e análise de documentos. A Anthropic afirma ainda que o Opus 4.7 é “sábio e criativo no cumprimento de uma função profissional, produzindo esforços de maior qualidade, deslizes e sofisticação”.

“Os usuários podem relatar que podem entregar seu trabalho de codificação mais difícil – o tipo que anteriormente exigia um monitoramento rigoroso – para o Work 4.7 com confiança. O Work 4.7 lida com tarefas complexas e de longo prazo com rigor e consistência, presta muita atenção às instruções e cria maneiras de verificar seus procedimentos antes de reportar.” Postagem do blog antrópico.

Fechar Tarefa 4.7: Teste de desempenho

Anthropica divulgou os detalhes cartão modelo descreve como Claudius Opus 4.7 se compara a outros modelos antropogênicos e modelos de limites da OpenAI, Google e xAI.

Opus 4.7 é o mais lento depois de Claude Mythos, que oferece pontuações antrópicas significativamente mais altas em benchmarks comuns, como O último escritor da humanidade IV. “O Close Opus 4.7 é menos capaz do que o Close Mythos Preview em todos os eixos relevantes e não pode progredir até o nosso limite”, afirma o modelo do artigo. “Fechar o Opus 4.7 significa que” não é um argumento de que a IA acelerou o progresso além das linhas de tendência existentes.

Veja também:

A indústria de IA tem um grande problema com o Chicken Little

Sobre O último escritor da humanidade IV A Antrópico relata que Claude Opus 4.7 forma todos os outros modelos do limite, exceto Claude Mythos.

  • Claudius Mythos obteve 56,8 por cento no HLE

  • Fechar Opus 4.7 obteve pontuação de 46,9 por cento

  • Gemini 3.1 Pro obteve 44,4 por cento

  • GPT-5-4 Pro obteve 42,7 por cento

  • Fechar Opus 4.6 obteve pontuação de 40,0 por cento

Com as ferramentas, o GPT-5-4-Pro obteve 58,7 por cento em comparação com 54,7 por cento do Opus 4.7. Ele venceu ambos os Mythos por 64,7 por cento.

Mashable não verificou esses resultados. Os resultados completos estão disponíveis Cartão modelo Work 4.7.


Crédito: antrópico

No geral, o Anthropic Opus 4.7 obteve pontuação acima de outros modelos principais em alguns benchmarks, embora o Gemini 3.1 Pro e o GPT-5-4 tenham sido superiores em algumas áreas.

Fechar Trabalho 4.7: Saúde e alucinações

A Antrópica também entrega Trabalho 4.7 mostra um baixo risco de comportamento desalinhado com um perfil de risco semelhante ao Trabalho 4.6.

Por exemplo, a Anthropic diz que o Opus 4.7 tem menos probabilidade de ter alucinações e apresenta taxas de hacking mais baixas.

“O Close Opus 4.7 é mais confiável do que o Opus 4.6 ou o Sonnet 4.6, com grandes reduções na taxa de grandes omissões e aumentos modestos no número de objetos e erros de entrada”, afirma o modelo do artigo.

Quer saber mais sobre como tirar o melhor proveito da sua tecnologia? Inscreva-se no boletim informativo de notícias e ofertas principais do Mashable hoje

Source link