Início NOTÍCIAS Geradores de imagens AI padrão para os mesmos 12 estilos de fotos,...

Geradores de imagens AI padrão para os mesmos 12 estilos de fotos, conclui estudo

100
0

Os modelos de geração de imagens de IA têm grandes quantidades de dados visuais para criar resultados exclusivos. E, no entanto, os investigadores descobriram que quando os modelos são forçados a produzir imagens numa série de instruções lentamente instáveis, faltam-lhes apenas alguns motivos visuais, resultando num estilo final genérico.

UM estudos na revista Padrões pegou dois geradores de imagens de IA, Stable Diffusion XL e LLaVA, e os testou em um jogo visual para telefone. O jogo era assim: A difusão para 40 exemplares curtos prontos e necessários para a produção de uma imagem, por exemplo: “Sozinho, principalmente quando estava sentado rodeado pela natureza, encontrei um livro antigo com exatamente oito páginas que contava uma história em uma língua esquecida esperando para ser lido e compreendido”. Essa imagem foi apresentada à modelo LLaVA, que lhe pediu que a descrevesse. Essa descrição foi então relatada ao Stable Diffusion, que foi necessário para criar uma nova imagem a partir desse prompt. Isso foi feito por 100 rodadas.

© Hintze et al., Padrões

Muito parecido com o jogo do telefone humano, a imagem original foi rapidamente perdida. Não é de admirar, especialmente se você já se viu como um deles Vídeos com lapso de tempo onde as pessoas são solicitadas a modelar IA para reproduzir a imagem sem fazer nenhuma alteração, as imagens rapidamente se transformam em algo que não se parece completamente com o original. O que surpreendeu os pesquisadores, porém, foi que os modelos não conseguiram abordar alguns aspectos do estilo genérico. Em 1.000 iterações diferentes do jogo telefônico, os pesquisadores descobriram que a maioria das imagens a seguir eventualmente se enquadra em apenas um entre uma dúzia de motivos dominantes.

Na maioria dos casos, é uma migração gradual. Às vezes, isso acontece de repente. Mas quase sempre. E os pesquisadores não ficaram impressionados. No estudo, eles se referiram aos tipos comuns de imagens como “música visual de elevador”, basicamente o tipo de fotos que você veria penduradas em um quarto de hotel. As cenas mais comuns incluem faróis, interiores formais, vida noturna urbana e arquitetura rústica.

Mesmo quando os investigadores passaram para diferentes modelos de geração e descrição de imagens, surgiram as mesmas tendências gerais. Os pesquisadores disseram que quando o jogo é estendido para 1.000 turnos, a convergência em torno do estilo ainda ocorre por volta do dia 20, mas as variações fora dos turnos os atraem. Curiosamente, porém, essas variações ainda normalmente se baseiam em um dos movimentos visuais mais populares.

Limites de IA após 100 iterações
© Hintze et al., Padrões

O que é isso? Geralmente, a IA não é particularmente criativa. No jogo humano do telefone, você acabará enfrentando muita discórdia porque cada mensagem é entregue e ouvida de maneira diferente, e cada um tem suas próprias preferências e preferências internas que podem afetar a forma como recebem a mensagem. A IA tem o problema oposto. Não importa o quanto você esteja disposto a viajar com originalidade, você sempre ficará aquém de uma seleção restrita de estilos.

É claro que a IA se baseia em prompts criados por humanos, então há algo a ser dito sobre os conjuntos de dados e o fato de que os humanos são atraídos por imagens de coisas. Se há uma lição aqui, talvez seja mais fácil imitar as formas do que ensinar o gosto.



Source link