Nesta terça-feira (18/06), a DeepMind, empresa adquirida pela Google e que tem como foco o desenvolvimento de projetos focados em inteligência artificial, revelou a criação de uma nova IA, que ajuda a criar sons para vídeos.
Através de descrições textuais e comandos de seu usuário, o novo recurso criará sons baseando-se nas imagens de contexto. Ainda sem um nome de batismo, essa ferramenta é chamada de “vídeo para áudio” ou “V2A”.
Usando a capacidade de interpretação textual e visual apresentados pela DeepMind, a inteligência gera sons que podem sair no formato de música ou até mesmo áudios de uma conversa.
Junto ao anúncio, a empresa parceira da Google também revelou como funciona o processo de criação de sons. O trabalho se trata de uma junção de codificadores de vídeo e texto, unidos a um modelo de difusão. Esse modelo fica responsável por gerar um áudio ainda em compressão e que será decoficidado.
Após ser decodificado, é formado o áudio final. Essa nova ferramenta abre a possibilidade para a criação de trilhas sonoras para gravações de filmes ou séries, sons ambientes com diálogos.
Recomendados para você
A DeepMind ressaltou que o resultado final ainda não está aperfeiçoado e que é preciso trabalhar na sincronização entre os áudios e os lábios durante uma cena de diálogo, por exemplo.
Ainda assim, a quantidade de efeitos sonoros que poderão ser criados pelo recurso são infinitas, de acordo com o próprio comunicado da empresa. Por se tratar de um projeto recente, a ferramenta ainda não está aberta ao público geral.
Entretanto, o esperado é que o programa passe por uma avaliação severa de segurança e experimentação antes de ser liberado ao público. A empresa também ressaltou a importância deste estudo no avanço da IA e na preparação de de ferramentas mais robustas.