Liderado pelo Laboratório X-LANCE da Universidade Jiao Tong de Xangai – um dos principais institutos de pesquisa audiovisual e de processamento de linguagem da China – o modelo se chama Habibi, que significa “meu amado” em árabe.
Apresentando suas descobertas, a equipe de pesquisa liderada por Chen Yushen descreveu o projeto em um artigo como “a primeira estrutura de código aberto para síntese de fala árabe dialética unificada”.
“Até onde sabemos, faltam pesquisas sobre o TTS do árabe dialetal unificado, sem mencionar uma estrutura de código aberto”, disseram os autores no artigo, “Habibi: estabelecendo a base de código aberto da síntese da fala árabe dialetal unificada”. Foi publicado no mês passado no arXiv, um repositório de acesso aberto que não é revisado por pares.
Habibie tem a capacidade de “disparo zero”, o que significa que o modelo pode facilmente clonar uma voz usando apenas um breve clipe de áudio de referência, sem esclarecimento prévio ou treinamento extensivo. Isso permite aplicações em cenários altamente eficientes e em voo.



