Início NOTÍCIAS Os geradores de imagens de IA estão cada vez melhores e piores

Os geradores de imagens de IA estão cada vez melhores e piores

193
0

isso é O passo atrásO jornal semanal detalha uma história essencial do mundo da tecnologia. Para saber mais sobre smartphones e imagens digitais – reais ou não – siga Allison Johnson. Stepback chega às caixas de entrada de nossos assinantes às 8h ET. Pois ele escolhe O passo atrás aqui

Lembra-se da imagem dos primeiros dias da geração de IA? Ah, como rimos, quando nossa opinião resulta em pessoas com dedos demais, membros cartilaginosos e outras coisas que facilmente demonstram falsidade. E se ele não aguenta, fica relutante em me contar a piada. Os geradores de imagens de IA estão cada vez melhores na criação de imagens realistas, em parte devido a um novo desenvolvimento surpreendente: criar imagens de baixa qualidade pior.

Se você acredita nisso, a OpenAI projetou sua ferramenta de geração de imagens DALL-E há pouco menos de cinco anos. Em sua primeira iteração, ele só conseguia gerar imagens de 256 x 256 pixels; minuciosamente doentes, geralmente. Um ano depois, o DALL-E 2 teve que dar um grande salto. As imagens tinham 1024 x 1024 e pareciam surpreendentemente realistas. Mas essa é sempre a terra.

Nas mãos de Casey Newton com o DALL-E 2 recém-lançado em beta, ele fez uma imagem imediata: “Shiba inu vestindo um cachorro de fogo”. Não é ruim e pode fazer você parecer estúpido se ver visualmente. Os acabamentos de pele de cachorro, porém, o casaco de tecido áspero (adorável) são meio bobos, e a estranha e grossa coleira pendurada na lateral do pescoço do cachorro não pertence a esse lugar. rolinhos de canela com olhos do mesmo artigo, eu teria acreditado mais facilmente.

Midjourney e Stable Diffusion também ganharam destaque nessa época, por artistas de IA e pessoas que adotaram estratégias menos palatáveis. Modelos novos e melhores surgiram nos anos seguintes, minimizando falhas e aumentando a capacidade de renderizar texto com muito mais precisão. Mas a maioria das imagens geradas por IA ainda tinha uma certa aparência: um pouco leve e perfeita demais, com um certo brilho que você associaria mais a uma imagem estilizada do que a uma fotografia espontânea. Algumas imagens de IA ainda estão aqui, mas é uma nova tendência real! inteligente esse tom de brilho.

OpenAI é relativamente novo no mundo da tecnologia quando você o compara com empresas como Google e Meta, mas as empresas estabelecidas ainda não estão a bordo da IA. Em meados de 2025, o Google lançou uma nova imagem em seu aplicativo Gemini chamada Nano Banana. Tornou-se viral quando as pessoas começaram a usá-lo para criar figuras realistas de si mesmas. Meu colega Robert Hart experimentou a tendência e percebeu algo interessante: o modelo preservou sua semelhança real de forma mais fiel do que outras ferramentas de IA.

Essa é a imagem da IA: muitas vezes ela tende a ser neutra, moderada. Seu pedido de uma imagem da mesa parecerá basicamente correto, mas também parecerá um efeito de computador em quase todas as mesas que carecerão de alguma coisa na realidade. O que faz uma moldura fotográfica parecer real – ou uma reprodução do seu próprio rosto – são, na verdade, imperfeições. Não entendo o prodigioso artifício da IA ​​tentando entender as letras do alfabeto. Quero dizer um pouco de desordem, desordem e iluminação abaixo do ideal. E, recentemente, isso também significa imitar as imperfeições das nossas câmeras populares.

O Google atualizou seu modelo de imagem há menos de um mês, promovendo o Nano Banana Pro como um modelo ainda mais avançado e realista. Pode basear-se no conhecimento do mundo real e melhorar o texto, mas o mais interessante para mim é que muitas vezes imita uma foto tirada por um fotógrafo. Pelo contrário (ou a falta dela), a perspectiva, a nitidez agressiva, as escolhas de exposição – muitas das imagens que este modelo produziu para mim trazem as características de um sistema de câmera de telefone.

Esteja você ciente disso ou não, provavelmente você também se parece com isso. Os pequenos sensores e lentes dos nossos telefones usam processamento multiframe para superar suas limitações em comparação com uma câmera maior, e essas imagens são otimizadas para visualização em uma tela menor. Basicamente, isso significa que as fotos do telefone têm uma certa “aparência” em comparação com uma representação mais artística da cena – aumentando as sombras para revelar mais e aumentando a nitidez para destacar os assuntos. Aparentemente, o gerador de imagens do Google também adotou esse estilo.

O Google não está sozinho ao oferecer uma visão mais realista das imagens geradas. O gerador de imagens Firefly da Adobe possui um controle denominado “Intensidade Visual” que permite suavizar a aparência calorosa da IA. Os resultados parecem menos originais e mais como se tivessem sido tirados com uma câmera real – talvez mais uma câmera profissional do que uma câmera de telefone, o que dá uma ideia do público-alvo de profissionais da Adobe. Mas o gerador AI Meta também possui um controle deslizante para “Estilização”, que aumenta ou diminui o realismo de acordo. Em outros lugares, ferramentas de geração de vídeo como Sora 2 da OpenAI e Veo 3 do Google foram usadas para criar visuais granulados e de baixa resolução a partir de câmeras de segurança que imitam clipes virais. Como a IA deveria ser igual ao CCTV, é bastante improvável.

Existem muitas boas razões para tratar com ceticismo o potencial ilimitado de melhoria da IA. Os gerentes de IA ainda estão lutando para comprar sapatos. Mas modelos de imaginação? Eles têm veementemente corrigido, e a evidência está diante de nós.

Falei recentemente com Ben Sandofsky, um dos cofundadores do popular aplicativo de câmera para iPhone Halide, sobre a tendência recente de smartphones que imitam IA. Ele diz que ao adotar as poderosas tendências de processamento e a familiaridade dos fotógrafos com câmeras de telefone, que já fazem nossas imagens parecerem um pouco desligadas da realidade, “o Google pode ter olhado ao redor do vale misterioso”. A IA não precisa ter uma aparência realista – é uma espécie de farsa. Desta forma, ele tem que imitar a maneira como falamos a verdade, com todos os seus defeitos, e usá-la como se fosse uma espécie de fraude para fazer a imagem parecer credível. Então, como podemos acreditar em qualquer fotografia que vemos?

Sam Altman é da opinião de que imagens reais e imagens de IA se misturarão no futuro, e ficaremos bem com isso. Acho isso justo, mas tenho dificuldade em acreditar que realmente não nos importamos com o que é verdade e o que não é. E para que nós dois sobrevivamos, precisamos de ajuda. E parece estar a caminho – mas não está chegando tão rápido quanto a IA está melhorando os modelos de imagem.

O padrão C2PA Content Credentials está ganhando alguma importância. Na série de telefones Pixel X do Google, todos a imagem tirada com a câmera recebe uma assinatura criptográfica para identificar como foi feita. Isso evita o “efeito de verdade implícito”, como me explicou Isaac Reynolds, chefe da câmera Pixel, no início deste ano. Se rotularmos apenas as imagens geradas pela IA como IA, assumiremos que tudo sem rótulo é verdadeiro. Na verdade, porém, a falta de um rótulo significa apenas que não sabemos de onde veio a imagem. Portanto, a câmera Pixel rotula imagens com e sem IA.

Os rótulos são muito bons, mas não são úteis se você não puder vê-los. Isso está começando a mudar e, no início deste ano, o Imagens do Google adicionou suporte para Display Content Credentials. A empresa também facilitará a pesquisa de credenciais de conteúdo em resultados de pesquisa e anúncios, quando estiverem disponíveis. A última parte é fundamental – no momento, a maioria das fotos tiradas com telefones com câmera não são documentos atribuídos. Para que o sistema funcione, os desenvolvedores de hardware precisam adotar um padrão de que as imagens de IA não sejam assinadas no momento em que são criadas. Nas plataformas onde as imagens são compartilhadas, você também precisa de um mapa. Até que isso aconteça, estaremos por nossa conta – e é melhor do que nunca acreditar em qualquer coisa que você vê.

  • As câmeras do Google Pixel 10 não oferecem apenas ferramentas de edição de imagens de IA – o modelo gerador de IA é integrado ao pipeline imaginativo. Ele usa apenas um recurso chamado Pro Res Zoom e tem como objetivo melhorar o que de outra forma seria uma qualidade de imagem de zoom digital bastante ruim. Agora não funciona com as pessoas, o que é uma coisa boa para mim.
  • Os fabricantes de câmeras tradicionais também estão adotando credenciais de conteúdo C2PA, embora lentamente, como a Leica M-11P, de mais de US$ 9.000.
  • Enquanto isso, as ferramentas de edição alimentadas por IA no Photoshop, como a saturação generativa, tornaram-se mais poderosas e populares entre os fotógrafos. Existe um meio-termo entre imagens geradas totalmente por IA e imagens intocadas por IA que é mais difícil de definir.
Acompanhe os temas e autores desta história para ver mais sobre isso em sua própria página para alimentar o protocolo e receber atualizações por e-mail.


Source link