Em ambientes complexos, os humanos podem compreender melhor o significado da fala do que a IA, porque usamos não apenas os ouvidos, mas também os olhos.
Por exemplo, vemos a boca de alguém se movendo e podemos saber intuitivamente que o som que ouvimos deve vir dessa pessoa.
A Meta AI está trabalhando em um novo sistema de diálogo de IA, que visa ensinar a IA a também aprender a reconhecer correlações sutis entre o que vê e ouve em uma conversa.
O VisualVoice aprende de maneira semelhante à forma como os humanos aprendem a dominar novas habilidades, permitindo a separação audiovisual da fala ao aprender dicas visuais e auditivas de vídeos não rotulados.
Para as máquinas, isto cria uma melhor percepção, enquanto a percepção humana melhora.
Imagine poder participar de reuniões de grupo no metaverso com colegas de todo o mundo, participando de reuniões de grupos menores à medida que se movem pelo espaço virtual, durante as quais as reverberações e timbres sonoros da cena se ajustam de acordo com o ambiente.
Ou seja, ele pode obter informações de áudio, vídeo e texto ao mesmo tempo, e possui um modelo de compreensão ambiental mais rico, permitindo aos usuários uma experiência sonora "muito impressionante".
Horário da postagem: 20 de julho de 2022