Início NOTÍCIAS O GPT-5.4 da OpenAI estabelece novos padrões em benchmarks profissionais

O GPT-5.4 da OpenAI estabelece novos padrões em benchmarks profissionais

41
0

O novo modelo introduz o uso nativo do computador, 1 milhão de contextos de janelas principais e um sistema de chamada de ferramentas revisado. Se é realmente antropomórfico e se o Google está se contendo, é menos claro.


OpenAI está se movendo muito rápido atualmente, então o próximo modelo invadiu seu último na mesma tarde. Dois dias depois, a empresa lançou o GPT-5.3 instantâneo.

Na quinta-feira, o GPT-5.4 – um lançamento um pouco mais substancial – ocorreu em meio a um momento tumultuado para a empresa, cujo acordo com o Departamento de Defesa dos EUA gerou cancelamentos de usuários e uma briga pública com o CEO da Anthropic.

O modelo em si, pelo menos, é um passo genuíno. A OpenAI classifica o GPT-5.4 como “nosso modelo mais adequado e eficiente para trabalho profissional de limites” e o lançou em três configurações.

Espaço TNW City Coworking – onde o melhor trabalho é feito

Um espaço de trabalho para crescimento, colaboração e oportunidades infinitas de networking no coração da tecnologia.

A versão padrão para uso geral, GPT-5.4 Para tarefas de raciocínio que se beneficiam de um maravilhoso sistema de pensamento estendido, e GPT-5.4 Para tarefas com as mais altas demandas.

Considerando que estará disponível para assinantes ChatGPT, Plus, Team e Pro a partir de hoje, o GPT-5.2 foi substituído. O Pro está reservado para os níveis ChatGPT Pro e empresarial de US$ 200 por mês.

A prova da história é impressionante.

No GDPval, a avaliação interna da OpenAI que mede o trabalho baseado no conhecimento em 44 ocupações, desde análise jurídica até modelagem financeira, os profissionais da indústria GPT-5.4 igualaram ou superaram em 83% das comparações, acima dos 70,9% para GPT-5.2.

No OSWorld-Verified, que modela a capacidade de navegar em um ambiente de desktop usando teclado e mouse, o GPT-5.4 obteve 75% de sucesso, em comparação com o teste de implementação humana anunciado anteriormente de 72,4%, e um salto substancial em relação aos 47,3% do GPT-5.2.

Ele também conquistou a primeira posição no APEX-Agents Test of Mercer, desenvolvido para avaliar os agentes nas funções profissionais que desempenham por meio de investimentos, consultoria e direito societário.

Em relação às alucinações, a OpenAI relata que as declarações individuais têm 33% menos probabilidade de serem falsas em comparação com o GPT-5.2, e as respostas gerais têm 18% menos probabilidade de conter erros.

Esses números são auto-relatados e as comparações de benchmark são com relação ao GPT-5.2, e não ao mais recente GPT-5.3 – um padrão perceptível na leitura de números importantes.

Uso de computador e janela de promessa de 1 milhão

O recurso mais recente é o uso nativo de código de computador e APIs. GPT-5.4 é o primeiro modelo OpenAI geral construído com isso, permitindo que agentes operem programas, naveguem em sistemas de arquivos e executem fluxos de trabalho de várias etapas em aplicativos, um tipo de comportamento anteriormente associado a estruturas de agentes especializados em camadas sobre os modelos.

Para desenvolvedores que criam pipelines de automação, o significado tem menos a ver com demonstrações e mais com confiança: um modelo geral que lide com a interação do computador remove um tipo de complexidade de integração.

A versão API também suporta janelas de contexto de até 1 milhão de símbolos, mais de 400.000 duplos estão disponíveis no GPT-5.3 e usa o maior OpenAI.

Para organizações que lidam com a expansão de documentos, longas bases de código ou registros financeiros multitrimestrais, manter todo o contexto na janela, em vez de depender de tarefas de recuperação, é um benefício prático real.

É importante notar, porém, que a janela de dados de 1 milhão vem com uma advertência antiga: a OpenAI exige o dobro da taxa padrão por milhão de tokens, uma vez que a entrada excede 272.000 tokens. O Gemini Google 3.1 Pro, em comparação, oferece um preço mais baixo de 2 milhões.

Uma melhoria secundária na eficiência vale a pena para os desenvolvedores. O novo sistema Tool Search muda a forma como as chamadas de API lidam com as definições de ferramentas.

Anteriormente, cada chamada incluía antecipadamente uma especificação completa para todas as ferramentas, uma prática que podia acessar dezenas de milhares de símbolos para cada solicitação do ecossistema de ferramentas.

No novo sistema, as definições do modelo exigem que a ferramenta se retraia quando necessário. Em um teste interno usando 250 funções em 36 servidores MCP, a OpenAI relatou uma redução de 47% no uso total de tickets. Para os desenvolvedores, eles executam grandes sistemas de agentes com muitas integrações, o que se traduz diretamente em custos mais baixos e respostas mais rápidas.

Digno de prova

Os resultados dos Agentes APEX da Mercer são apresentados nos materiais de lançamento como lucro direto, mas um contexto importante está anexado.

Quando a Mercor lançou o teste em janeiro, constatou que mesmo os melhores modelos de prazo eram inferiores a 25% dos serviços profissionais no primeiro projeto, e com oito testes o teto estava em torno de 40%. O GPT-5.4 com o guia de ferramentas é o modelo de melhor desempenho em uma área onde nenhum modelo está próximo da confiabilidade de nível profissional em tarefas de longo prazo.

Brendan Foody, cofundador e CEO da Mercor, reconheceu isso quando o benchmark foi introduzido: “Agora é justo dizer que internamente é como gastar um quarto do tempo.”

Tenha cuidado para não retardar o progresso. Afeta a forma como a proposta principal deve ser lida, especialmente com o próprio conselho GDPval OpenAI, seus testes internos, como documentos que correspondem ou excedem “indulgências profissionais”.

O GDPval e a APEX-Agency medem de forma bastante diferente: o GDPval avalia entregas individuais em amplas categorias de ocupação, enquanto a APEX-Agency apoiou experiências laborais multiníveis em ambientes empresariais simulados. Ambos os assuntos; nem conta toda a história.

Saúde também

OpenAI inclui uma nova avaliação chamada código aberto Controlabilidade CoTEle queria explorar se os modelos de raciocínio da sua cadeia industrial de pensamento poderiam obscurecer a monitorização da evasão.

Ele aborda esta preocupação, que tem sido incorporada à pesquisa de segurança em IA há algum tempo: que um modelo seja capaz de aprender o suficiente para imitar seu comportamento interno quando observado.

A empresa relata que o GPT-5.4 Thinking mostra uma baixa capacidade de controlar a cadeia de pensamentos desta forma, o que a OpenAI enquadra como um sinal positivo de segurança, sugerindo que o monitoramento do modelo de conta visível continua sendo uma proteção significativa.

A investigação antrópica publicada em Fevereiro observou que os seus modelos por vezes envolvem-se em raciocínios que diferem das suas condições estabelecidas em certas cadeias de pensamento; OpenAI vincula expressamente esse trabalho no material de lançamento.

Se uma avaliação de controlabilidade baseada em cadeia de pensamento será suficiente para tornar os modelos mais adequados é uma questão em aberto. O facto de a OpenAI publicar a sua metodologia de avaliação como código aberto é pelo menos um passo em direção ao escrutínio externo.

Onde as coisas estão

O GPT-5.4 chega naquele que é sem dúvida o mês mais competitivo na fronteira da IA ​​até o momento. O Anthropic Work 4.6 de Claudio, lançado em fevereiro, ainda lidera na maioria dos testes de codificação.

O Google Twins 3.1 introduz a contabilização de medidas abstratas e fornece uma janela de contexto maior a um custo menor. GPT-5.4 parece ser líder no uso de computadores desktop e o conhecimento profissional do trabalho, conforme medido nos testes OpenAI, seleciona claramente a luz. Nenhum modelo serve para todos.

A cláusula de rescisão em si é digna de nota. GPT-5.3 Instant lançado segunda-feira; GPT-5.4 foi lançado na quinta-feira.

Entretanto, dois exemplos significativos foram divulgados em menos de uma semana, com o segundo já relatado sugerindo que a aposta da OpenAI em permanecer no ciclo de notícias é tão importante como qualquer salto único na capacidade.

Se essa política se traduz na adopção de iniciativas empresariais, ou simplesmente acelera a já rápida rotação do período de liberdade condicional, o que torna difícil levá-lo a qualquer fim, é a verdadeira questão que se dirige para o resto de 2026.

Source link

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui