Início ESTATÍSTICAS Uma inovação que torna os rostos dos robôs menos assustadores

Uma inovação que torna os rostos dos robôs menos assustadores

43
0

Quando as pessoas estão conversando cara a cara, quase metade de sua atenção está focada no movimento dos lábios. Apesar disso, ainda é difícil para os robôs moverem a boca de forma convincente. Mesmo as máquinas humanóides mais avançadas muitas vezes dependem de movimentos bucais rígidos e exagerados, semelhantes aos de marionetes, desde que tenham um rosto.

As pessoas atribuem grande importância às expressões faciais, especialmente aos movimentos sutis dos lábios. ​​​​​​​​Embora andar desajeitado ou gestos desajeitados possam ser perdoados, mesmo pequenos erros nos movimentos faciais tendem a se destacar imediatamente. Esta sensibilidade contribui para o que os cientistas chamam de “vale misterioso”, um fenômeno onde os robôs parecem mais perturbadores do que reais. O mau movimento dos lábios é uma das principais razões pelas quais os robôs podem parecer assustadores ou emocionalmente monótonos, mas os pesquisadores dizem que isso pode mudar em breve.

Um robô que aprende a mover os lábios

Em 15 de janeiro, uma equipe da Columbia Engineering anunciou um grande avanço na robótica humanóide. Pela primeira vez, os pesquisadores criaram um robô que pode aprender os movimentos dos lábios para falar e cantar. Suas descobertas, publicadas em Robótica científicamostram o robô formando palavras em vários idiomas e até cantando uma música de seu álbum de estreia gerado por IA, “hello world_”.

Em vez de confiar em regras predefinidas, o robô aprendeu através da observação. Tudo começou com a descoberta de como controlar seu próprio rosto usando 26 motores faciais separados. Para isso, ele observou seu reflexo no espelho e depois passou horas estudando a fala humana e cantando vídeos no YouTube para entender como as pessoas movimentam os lábios.

“Quanto mais interagir com as pessoas, melhor será”, disse Hod Lipson, professor de inovação James e Sally Scapa no Departamento de Engenharia Mecânica e diretor do Laboratório de Máquinas Criativas de Columbia, onde a pesquisa foi conduzida.

Assista ao link para o vídeo do Lip Syncing Robot abaixo.

O robô está observando a conversa

Criar movimentos labiais naturais em robôs é particularmente difícil por dois motivos principais. Primeiro, requer equipamento avançado, incluindo material facial flexível e muitos pequenos motores que devem funcionar silenciosamente e em perfeita coordenação. Em segundo lugar, o movimento labial está intimamente relacionado com os sons da fala, que mudam rapidamente e dependem de uma sequência complexa de fonemas.

Os rostos humanos são controlados por dezenas de músculos localizados sob a pele macia, permitindo que os movimentos correspondam naturalmente à fala. No entanto, a maioria dos robôs humanóides possui faces rígidas com movimentos limitados. Os movimentos da boca são geralmente ditados por regras rígidas, resultando em expressões mecânicas e não naturais que causam ansiedade.

Para resolver esses problemas, a equipe da Columbia desenvolveu uma face robótica flexível com um grande número de motores e permitiu que o robô aprendesse a controlar a face por conta própria. O robô foi colocado em frente a um espelho e começou a experimentar milhares de expressões faciais aleatórias. Assim como uma criança explora seu reflexo, ela aprende gradualmente quais movimentos motores criam determinadas formas faciais. Este processo baseou-se no que os pesquisadores chamam de modelo de linguagem visão-to-action (VLA).

Aprenda com a fala e a música humanas

Depois de entender como funciona seu próprio rosto, o robô viu vídeos de pessoas conversando e cantando. O sistema de IA observou como o formato da boca mudava com diferentes sons, permitindo associar o som de entrada diretamente ao movimento motor. Com esta combinação de autoaprendizagem e observação humana, o robô pode converter o som em movimentos labiais sincronizados.

A equipe de pesquisa testou o sistema em diferentes idiomas, estilos de fala e exemplos musicais. Mesmo sem entender o significado do som, o robô conseguiu mover os lábios no ritmo do som que ouviu.

Os pesquisadores reconhecem que os resultados não são perfeitos. “Tivemos dificuldade especial com sons fortes, como ‘B’, e sons associados ao franzir dos lábios, como ‘W.’ Mas é provável que essas habilidades melhorem com o tempo e a prática”, disse Lipson.

Além do Lip Sync para comunicação real

Os pesquisadores enfatizam que a sincronização labial é apenas parte de um objetivo maior. Seu objetivo é fornecer aos robôs formas mais ricas e naturais de se comunicarem com os humanos.

“Quando a capacidade de sincronização labial é combinada com inteligência artificial de conversação, como ChatGPT ou Gemini, o efeito adiciona uma profundidade totalmente nova à conexão que um robô forma com um ser humano”, disse Yuhan Hu, que liderou a pesquisa como parte de seu trabalho de doutorado. “Quanto mais um robô observar as pessoas conversando, melhor será em imitar gestos faciais sutis com os quais podemos nos conectar emocionalmente.”

“Quanto mais longa a janela de contexto de conversação, mais sensíveis ao contexto serão esses gestos”, acrescentou Hu.

Expressão facial como o elo perdido

A equipe de pesquisa acredita que a expressão emocional através do rosto é uma lacuna séria na robótica moderna.

“A maior parte da robótica humanóide hoje se concentra nos movimentos das pernas e dos braços para atividades como caminhar e agarrar”, disse Lipson. “Mas o apego facial é igualmente importante para qualquer robô que envolva interação humana”.

Lipson e Hu esperam que as expressões faciais realistas se tornem cada vez mais importantes à medida que os robôs humanóides são introduzidos no entretenimento, na educação, na saúde e no cuidado aos idosos. Alguns economistas estimam que mais de um bilhão de robôs humanóides poderão ser produzidos na próxima década.

“Não há futuro onde todos esses robôs humanóides não tenham rosto. E quando finalmente tiverem rosto, precisarão mover os olhos e os lábios corretamente ou ficarão estranhos para sempre”, disse Lipson.

“Nós, humanos, estamos programados dessa forma e não podemos evitar. Estamos perto de cruzar o vale misterioso”, acrescentou Hu.

Riscos e progresso responsável

O trabalho baseia-se no esforço de anos de Lipson para ajudar os robôs a formar conexões mais naturais com os humanos, aprendendo comportamentos faciais como sorriso, contato visual e fala. Ele argumenta que essas habilidades deveriam ser aprendidas por meio da observação, e não programadas por meio de instruções rígidas.

“Algo mágico acontece quando um robô aprende a sorrir ou a falar apenas observando e ouvindo as pessoas”, disse ele. “Sou um roboticista cansado, mas não posso deixar de sorrir para um robô que sorri espontaneamente para mim.”

Hu enfatizou que o rosto humano continua sendo uma das ferramentas de comunicação mais poderosas e os cientistas estão apenas começando a entender como funciona.

“Os robôs com esta capacidade terão obviamente uma capacidade muito melhor de comunicar com os humanos porque uma grande parte da nossa comunicação envolve linguagem facial, e todo esse canal ainda está inexplorado”, disse Hu.

Os pesquisadores também reconhecem os desafios éticos envolvidos na criação de máquinas que podem interagir emocionalmente com os humanos.

“Esta será uma tecnologia poderosa. Temos que avançar lenta e cuidadosamente para que possamos colher os benefícios e ao mesmo tempo minimizar os riscos”, disse Lipson.

Source link