Récemment, la grande modèle de Tongyi a lancé CoGenAV, une innovation dans la technologie de reconnaissance vocale basée sur l'idée de synchronisation audio-visuelle, efficacement résolvant le problème des interférences sonores dans la reconnaissance vocale.

Les modèles de reconnaissance vocale traditionnels souffrent de performances médiocres dans les environnements bruyants. En revanche, CoGenAV adopte une approche originale en apprenant les relations d'alignement temporel entre audio, visuel et texte, créant ainsi un cadre plus robuste et plus généralisé pour la représentation vocale. Cela améliore systématiquement la performance de plusieurs tâches Speech-Centric, notamment la reconnaissance vocale (VSR/AVSR), la reconstruction vocale (AVSS/AVSE) et la synchronisation vocale (ASD).

Capture d'écran_wechat_20250528193127.png

En termes de mise en œuvre technique, CoGenAV utilise une stratégie de « synchronisation par génération comparative ». Lors de l'extraction des caractéristiques, le modèle utilise ResNet3D CNN pour analyser les mouvements des lèvres du locuteur dans la vidéo, capturant les liens dynamiques entre le son et les mimiques faciales, tout en utilisant un encodeur Transformer pour extraire des informations vocales à partir de l'audio et aligner précisément les caractéristiques audiovisuelles. L'entraînement de la synchronisation comparative améliore les capacités de compréhension du modèle via deux méthodes : la synchronisation comparative, qui renforce les relations correspondantes entre les caractéristiques audio et vidéo en utilisant Seq2Seq Contrastive Learning et introduit la fonction d'activation ReLU pour filtrer les cadres perturbateurs ; et la synchronisation générative, qui aligne les caractéristiques audiovisuelles avec leurs représentations acoustiques et textuelles à l'aide d'un modèle ASR pré-entraîné et conçoit un module léger d'adaptation multimodale pour améliorer l'efficacité de la fusion multimodale.

Grâce à ces innovations technologiques, CoGenAV a obtenu des résultats exceptionnels sur plusieurs jeux de données benchmarks. Dans la tâche de reconnaissance vocale visuelle (VSR), avec seulement 223 heures de vidéos de mouvements labiaux pour l'entraînement, il atteint un taux d'erreur lexical (WER) de 20,5 % sur le jeu de données LRS2, rivalisant avec les modèles traditionnels entraînés sur des milliers d'heures de données. Dans la tâche de reconnaissance vocale audiovisuelle (AVSR), associé au modèle Whisper Medium, il réalise un WER de 1,27 % sur le même ensemble de données, établissant un record SOTA, avec une amélioration de plus de 80 % dans un environnement de bruit à 0 dB, surpassant nettement les modèles audio purs. Dans les tâches de renforcement et de séparation vocale (AVSE/AVSS), en tant qu'extraiteur de caractéristiques visuelles, il atteint un indicateur SDRi de 16,0 dB dans la tâche de séparation vocale sur LRS2, dépassant AvHuBERT de 1,6 dB et Av SepFormer de 0,3 dB ; dans la tâche de renforcement vocal, l'indicateur SDRi est de 9,0 dB, surpassant Av HuBERT de 1,6 dB. Dans la tâche de détection active de locuteur (ASD), il atteint une précision moyenne (mAP) de 96,3 % sur Talkies, surpassant les méthodes existantes.

CoGenAV peut être directement intégré aux modèles de reconnaissance vocale populaires, comme Whisper, sans modification ou micro-adjustement, pour activer les fonctions de reconnaissance vocale visuelle, réduisant ainsi les barrières de déploiement, montrant une excellente capacité anti-bruit et une efficacité des données, économisant ainsi considérablement les coûts d'entraînement et augmentant la praticité et le potentiel d'extension du modèle. Actuellement, les codes et modèles associés à CoGenAV sont open source sur des plateformes telles que GitHub, arivx, HuggingFace et ModelScope pour les chercheurs et développeurs.

GitHub: https://github.com/HumanMLLM/CoGenAV

arivx: https://arxiv.org/pdf/2505.03186

HuggingFace: https://huggingface.co/detao/CoGenAV

ModelScope: https://modelscope.cn/models/iic/cogenav