
Em ambientes complexos, os humanos podem entender melhor o significado da fala que a IA, porque usamos não apenas nossos ouvidos, mas também nossos olhos.
Por exemplo, vemos a boca de alguém se movendo e podemos intuitivamente saber que o som que ouvimos deve estar vindo dessa pessoa.
A Meta AI está trabalhando em um novo sistema de diálogo de IA, que é ensinar a IA a aprender também a reconhecer correlações sutis entre o que vê e ouve em uma conversa.
O VisualVoice aprende de maneira semelhante à como os humanos aprendem a dominar novas habilidades, permitindo a separação de fala audiovisual, aprendendo pistas visuais e auditivas a partir de vídeos não marcados.
Para máquinas, isso cria melhor percepção, enquanto a percepção humana melhora.
Imagine ser capaz de participar de reuniões de grupo no Metaverso com colegas de todo o mundo, juntando -se a reuniões de grupo menores à medida que passam pelo espaço virtual, durante o qual os reverbos e timbres da cena se ajustam de acordo com o ambiente de acordo.
Ou seja, ele pode obter informações de áudio, vídeo e texto ao mesmo tempo e possui um modelo de entendimento ambiental mais rico, permitindo que os usuários tenham uma experiência sonora "muito uau".
Hora de postagem: JUL-20-2022