
Em ambientes complexos, os humanos podem entender o significado da fala melhor do que a IA, porque usamos não apenas nossos ouvidos, mas também nossos olhos.
Por exemplo, vemos a boca de alguém se movendo e podemos saber intuitivamente que o som que ouvimos deve estar vindo dessa pessoa.
A Meta AI está trabalhando em um novo sistema de diálogo de IA, que visa ensinar a IA a também aprender a reconhecer correlações sutis entre o que ela vê e ouve em uma conversa.
O VisualVoice aprende de forma semelhante à forma como os humanos aprendem a dominar novas habilidades, permitindo a separação da fala audiovisual ao aprender pistas visuais e auditivas de vídeos não rotulados.
Para as máquinas, isso cria uma melhor percepção, enquanto a percepção humana melhora.
Imagine poder participar de reuniões de grupo no metaverso com colegas do mundo todo, juntando-se a reuniões de grupos menores conforme eles se movem pelo espaço virtual, durante as quais as reverberações sonoras e os timbres na cena se ajustam de acordo com o ambiente.
Ou seja, ele pode obter informações de áudio, vídeo e texto ao mesmo tempo e tem um modelo de compreensão ambiental mais rico, permitindo que os usuários tenham uma experiência sonora "muito impressionante".
Data de publicação: 20 de julho de 2022