Quando consideramos a percepção humana, os sentidos estão conectados. Por exemplo, quando vemos uma porta sendo empurrada pelo vento, já nos preparamos para o barulho que acontecerá quando a porta bater. Por causa disso, a integração entre diferentes sentidos, principalmente o som e a visão, é importante para o avanço da inteligência artificial (IA). Isso permite que os modelos de IA se aproximem da percepção humana cada vez mais.
Ao conectar o que veem com o que ouvem, as IAs podem identificar relações entre eventos e entender interações que é difícil usando apenas um sentido. Essa capacidade multimodal é fundamental para a criação de IAs mais inteligentes e autônomas. Um exemplo, seria em carros autônomos, onde a IA poderia visualizar um pedestre e também ouvir o som de seus os ou um grito de alerta. Isso ajudaria o modelo ter uma noção melhor da realidade que se encontra, principalmente em ambientes que necessitam de atenção.
Pesquisadores do MIT criaram um modelo de IA que conecta dados visuais e de áudio de videoclipes sem a necessidade de ajuda humana. Esse modelo foi ensinado a associar sons a objetos e ações visíveis. Um dos exemplos que os autores do artigo trazem é a associação do som de um violão com a imagem do instrumento. Essa abordagem de aprendizado não supervisionado permite que a IA descubra padrões de forma autônoma e até padrões que não são conhecidos por humanos.
Quando se treina um modelo de IA geralmente se usa um tipo de dados que entram no algoritmo como números. Esses dados podem ser números, imagens, vídeos ou até dados multidimensionais. Os modelos multimodais são criados de forma a receberem como entrada diferentes tipos de dados ao mesmo tempo. Eles aprendem com dados diferentes e criam relações entre eles. Por exemplo, um modelo multimodal consegue aprender sons e imagens ao mesmo tempo.
Essa abordagem multimodal permite que a IA execute tarefas mais complexas do que as IAs que aprendem por um tipo de dado apenas. Por exemplo, um modelo pode descrever uma imagem com texto preciso, gerar imagens a partir de descrições textuais, ou associar sons a eventos visuais em um vídeo. Isso leva a avanços em diferentes áreas como, por exemplo, assistentes virtuais mais inteligentes.
O grupo havia proposto o CAV-MAE que é um modelo multimodal que processa simultaneamente dados de áudio e vídeo. A vantagem desse modelo é que não há a necessidade da ajuda humana colocando rótulos, ele prende de forma não-supervisionda. O CAV-MAE recebe videoclipes e codifica os dados visuais e de áudio separadamente em representações chamadas tokens. Usando o áudio natural da gravação, o modelo aprende a mapear pares correspondentes de tokens de áudio e tokens visuais.
Apesar do avanço do CAV-MAE na direção de modelo multimodal, ele trata as amostras de áudio e vídeo como uma única unidade. Isso significa que ele não separa por completo os frames mas trata os vídeos inteiros assim como os áudios. O objetivo seguinte é justamente um modelo capaz que separar os frames e os áudios associados. Foi dessa ideia que o CAV-MAE Sync. foi criado pelos pesquisadores.
O CAV-MAE Sync. divide o áudio em janelas menores antes de criar os tokens, antes ele gera representações separadas para cada janela de áudio. Durante o treinamento, o CAV-MAE Sync aprende a associar um frame de vídeo ao áudio que ocorre especificamente naquele frame específico. No CAV-MAE Sync, foram introduzidos dois novos tipos de representações de dados: "global tokens" para o aprendizado geral e " tokens" para focar em detalhes importantes para a reconstrução.
A adição desses novos tipos de representações permitiu ao modelo executar essas duas tarefas de forma mais independente. Esses aprimoramentos no CAV-MAE Sync. resultaram em maior precisão na recuperação de vídeos por consultas de áudio e na previsão da classe de cenas audiovisuais. Os resultados foram superiores a trabalhos anteriores e até ao do CAV-MAE.
A integração entre som e visão é importante para o avanço da inteligência artificial quando queremos que ela se aproxime da inteligência humana. Ela permite que os sistemas percebam e compreendam o ambiente ao redor de forma mais completa. Ao combinar o que veem com o que ouvem, as IAs podem inferir relações causais, identificar eventos e entender o contexto, construindo uma representação mais precisa da realidade.
Essa fusão de sentidos beneficia a aplicação de IA em diferentes áreas. Por exemplo, em carros autônomos, a IA poderia não apenas ver os carros mas também ouvir buzinas e localizar através dos sons. Em robótica, sistemas podem se localizar e interagir correlacionando sons do ambiente com seus mapas visuais. Além disso, em sistemas de segurança, a combinação de áudio e vídeo pode detectar anomalias com maior precisão.
Araujo et al. 2025 CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment CVPR 2025