Recentemente, o modelo generalista Tongyi lançou o CoGenAV, inovando na tecnologia de reconhecimento de voz com a ideia de sincronização entre áudio e vídeo, resolvendo eficazmente o problema de interferência de ruído no reconhecimento de voz.
O reconhecimento de voz tradicional apresenta desempenho deficiente em ambientes com ruído, enquanto o CoGenAV aborda essa questão de forma alternativa, aprendendo as relações de alinhamento temporal entre audio-visuais-textuais, construindo um quadro mais robusto e geral para representação de voz, melhorando sistematicamente o desempenho de várias tarefas centradas em voz, como identificação de fala (VSR/AVSR), reconstrução de voz (AVSS/AVSE) e sincronização de voz (ASD).
No desenvolvimento técnico, o CoGenAV adota uma estratégia chamada "sincronização por geração contrastiva". Na etapa de extração de características, o modelo utiliza ResNet3D CNN para analisar os movimentos labiais do locutor nos vídeos, capturando a correlação dinâmica entre som e lábios, enquanto usa um codificador Transformer para extrair informações de voz do áudio e alinha precisamente as características de áudio e vídeo. A sincronização por geração contrastiva melhora a compreensão do modelo por meio de duas abordagens: a sincronização por comparação utiliza o método Seq2Seq Contrastive Learning para fortalecer a relação entre as características de áudio e vídeo, introduzindo a função ReLU para filtrar frames de interferência; a sincronização por geração utiliza um modelo pré-treinado ASR para alinhar as características de áudio e vídeo com sua representação acústico-textual e projeta um módulo leve para melhorar a eficiência da fusão multimodal.
Graças a essas inovações tecnológicas, o CoGenAV alcançou resultados inovadores em vários conjuntos de dados de referência. Na tarefa de reconhecimento visual de voz (VSR), utilizando apenas 223 horas de vídeo com movimentos labiais para treinamento, alcançou uma taxa de erro de palavra (WER) de 20,5% no conjunto de dados LRS2, equivalente ao desempenho de modelos tradicionais que usam milhares de horas de dados. Na tarefa de reconhecimento de áudio e vídeo de voz (AVSR), combinando o modelo Whisper Medium, alcançou uma WER de 1,27% no mesmo conjunto de dados, estabelecendo um novo recorde SOTA, com uma melhoria de mais de 80% no desempenho em ambientes de 0 dB de ruído, superando significativamente os modelos baseados apenas em áudio. Na tarefa de realce e separação de voz (AVSE/AVSS), como extrator de características visuais, alcançou um índice SDRi de 16,0 dB na tarefa de separação de voz do conjunto de dados LRS2, superando o AvHuBERT em 1,6 dB e o Av SepFormer em 0,3 dB; na tarefa de realce de voz, o SDRi foi de 9,0 dB, superando o Av HuBERT em 1,6 dB. Na tarefa de detecção ativa de locutores (ASD), alcançou uma precisão média (mAP) de 96,3% no conjunto de dados Talkies, liderando os métodos existentes.
O CoGenAV pode ser diretamente integrado a modelos de reconhecimento de voz principais, como o Whisper, sem necessidade de modificações ou ajustes finos para fornecer funcionalidades de reconhecimento visual de voz, reduzindo a barreira de implantação, demonstrando excelente capacidade antirruído e eficiência de dados, economizando significativamente os custos de treinamento e aumentando a praticidade e potencial de expansão do modelo. Atualmente, o código-fonte e os modelos relacionados do CoGenAV estão disponíveis gratuitamente em plataformas como GitHub, arivx, HuggingFace e ModelScope para uso por pesquisadores e desenvolvedores.
GitHub: https://github.com/HumanMLLM/CoGenAV
arivx: https://arxiv.org/pdf/2505.03186
HuggingFace: https://huggingface.co/detao/CoGenAV
ModelScope: https://modelscope.cn/models/iic/cogenav