Início NOTÍCIAS OpenAI pega um novo modelo da imagem antes de desenhá-la

OpenAI pega um novo modelo da imagem antes de desenhá-la

39
0

O novo modelo analisa a composição, pesquisa contextos da web, gera até oito imagens coerentes a partir de um único prompt e renderiza texto em scripts não latinos com precisão quase perfeita. Ele também alcançou o primeiro lugar na tabela de classificação do Image Arena 12 horas após o lançamento, pela maior margem de todos os tempos.


Dois anos atrás, pedir ao ChatGPT para gerar um visual era como postar um pôster de um estagiário sem sono com um bastão de cola e um ferimento na cabeça. Você pede um plano mundial e “restos criativos” são derramados sobre a imagem, três novas palavras que parecem ter sido encontradas em um pequeno defeito de software.

Eles apenas observaram imagens geradas por IA que se tornaram ícones culturais devido ao seu uso incomum: quase retas, visivelmente erradas e instantaneamente reconhecíveis como sintéticas.

Sobre as coisas com arrogância. A tradução de texto é persistente e dificultada pela fraqueza dos geradores de imagens de IA. Quando o DALL-E for lançado pela primeira vez em janeiro de 2021, teremos um modelo. coberto no tempo como uma curiosidade atraente.

O Images 2.0 afirma ter cerca de 99% de precisão na renderização de texto em qualquer idioma e escrita, incluindo japonês, coreano, chinês, hindi e bengali. Se esse número se mantiver em testes independentes, ele preencherá a lacuna entre “uma impressionante demonstração de IA” e “uma ferramenta que um designer gráfico realmente usa para produzir trabalho”.

A arquitetura de mudança que torna o modelo diferente, embora não apenas melhor, é o que a OpenAI chama de “capacidades de pensamento”. Imaging 2.0 é o primeiro modelo de imagem da empresa a integrar sua arquitetura de computação série O.

Antes de gerar um pixel, ele pesquisa o modelo disponível, pensa na composição, consegue analisar as relações espaciais entre os elementos e a web para o contexto em tempo real.

No design do OpenAI, não é uma ferramenta de renderização, mas um “Parceiro de pensamento visual.”

Esse meu gato virou história em quadrinhos com o ChatGPT.

Na prática, isso se manifesta em duas formas de abordagem. O modo instantâneo é fornecido para todos os usuários do ChatGPT, incluindo uma série de contas gratuitas, e oferece melhorias básicas de qualidade: texto melhor, edição mais rápida, layouts mais ricos.

O plano, que permite navegação na web, navegação múltipla e verificação de saída, é restrito aos assinantes Plus (US$ 20/mês), Pro (US$ 200/mês), Business e Enterprise.

Eles representam uma distinção comercial. As instalações de contabilidade, onde reside o prêmio da mais alta qualidade, ficam atrás de um acesso pago. Crianças utilizando imagens melhores; renderizando aos usuários da imagem uma cópia da imagem que ele pensou.

A capacidade de múltiplas imagens é o recurso com maior probabilidade de mudar os serviços profissionais. Um único prompt agora pode produzir até oito imagens que mantêm a continuidade dos personagens e objetos em todo o cenário.

Isso significa que um designer familiar pode gerar recursos de mídia social, uma série de livros infantis ou uma série de cartazes a partir de uma única instrução, com uma identidade visual consistente por toda parte.

Anteriormente, cada imagem tinha que estar disponível individualmente e vinculada manualmente. Para equipes de marketing e criadores de conteúdo, isso representa uma redução significativa no atrito da produção.

Integração em Código de Direito CanônicoAmbiente de codificação OpenAI, carregado de movimento estratégico. Desenvolvedores e designers de UI podem gerar maquetes, protótipos e objetos visuais no mesmo espaço de trabalho que usam para código do navegador, slides e automação, usando uma única assinatura do ChatGPT.

Um modelo de imagem não é mais um produto independente; A capacidade está incorporada na plataforma OpenAI mais ampla, não apenas competindo com Midjourney e Google. Nano-banana 2 em qualidade, mas com Canva e Figma na integração do fluxo de trabalho.

Desempenho de referência. 12 horas após o lançamento, Imagens 2.0 conquistou o primeiro lugar nas bilheterias Tabela de classificação da Arena de Imagens em todas as categorias, com uma pontuação de 1.512, uma vantagem de +242 pontos sobre o modelo em segundo lugar, o Nano Banana Google 2. Essa é a maior vantagem já publicada no guia.

Durante a maior parte de 2026, OpenAI e Google negociaram o primeiro lugar com uma margem apertada; Imagens 2.0 quebraram a internet.

DALL-E 2 e DALL-E 3 foram descontinuados e desativados em 12 de maio de 2026. GPT-Image-1.5, em dezembro de 2025 como uma atualização provisória, permanece acessível por meio da API para integrações legadas, mas não é mais o modelo padrão.

A OpenAI não divulgou a arquitetura da Imagem 2.0, descrevendo-a apenas como um modelo geral ou “imagem GPT” e recusando-se a especificar se utiliza uma abordagem de difusão, autorregressiva ou híbrida. O identificador da API do modelo é auimus-image-2; Espera-se que a API esteja aberta aos desenvolvedores no início de maio de 2026.

O preço do Insignia é de US$ 8 milhões por entrada de imagem, US$ 2 por entrada de imagem e US$ 30 por saída de imagem, com custos por imagem normalmente variando de US$ 0,04 a US$ 0,35, dependendo da complexidade e resolução disponíveis. Resolução de saída de até 2K.

O intervalo de conhecimento é dezembro de 2025, o que introduz um fim prático: o modelo não pode renderizar com precisão eventos, pessoas ou produtos que surgiram após esta data, sem complementar seu conhecimento interno com uma pesquisa ao vivo na web.

O modelo de segurança da arquitetura inclui filtragem de conteúdo, metadados de proveniência C2PA e o que a OpenAI descreveu no comunicado à imprensa como monitoramento contínuo, um ponto que a empresa enfatizou notavelmente, com o aumento do escrutínio regulatório da mídia sintética e o uso de geradores de imagens de IA em falsificações, fraudes e imagens não consensuais.

A questão mais importante do Images 2.0 gira em torno da qualidade, não. A lacuna técnica entre as imagens geradas pela IA e as criadas pelo homem tem vindo a diminuir há anos; este modelo se contrai ainda mais.

A questão é o que acontece quando a ferramenta deixa de ser uma novidade e passa a ser uma infraestrutura, quando a geração da imagem é a falta de capacidade de qualquer ambiente de codificação, toda ferramenta de chat e todo empreendimento é compatível com os produtos, e quando a distinção “projetado por uma pessoa” e “gerado por prompt” se torna algo que apenas os metadados podem saber.

A OpenAI, em parte, parece apostar que a escala é a resposta: mais imagens, mais rápido, melhor, mais barato, em qualquer lugar. Quando ele cobriu pela primeira vez DALL-E * coberto Há cinco anos, os modelos de resultados eram curiosidades fascinantes. Agora não é um ativo.

Os tempos em que as imagens geradas por IA eram obviamente geradas por IA acabaram. O que se segue é se os guardiões podem nivelar a habilidade.

Source link