最近、通義大模型はCoGenAVを発表しました。これは音声と映像の同期というアイデアに基づいて音声認識技術を革新し、雑音干渉による問題を効果的に解決しています。
従来の音声認識技術はノイズ環境下でパフォーマンスが低下しますが、CoGenAVは独自のアプローチを取り、audio-visual-text間の時間的対応関係を学習し、より強固で汎用的な音声表現フレームワークを構築しました。これにより、音声認識タスク(VSR/AVSR)、音声再構築タスク(AVSS/AVSE)、音声同期タスク(ASD)など、複数のSpeech-Centricタスクのパフォーマンスを系統的に向上させています。
技術的には、「対比生成同期」戦略を採用しています。特徴抽出段階では、モデルはResNet3D CNNを使用してビデオ内の話者の唇の動きを分析し、音声と口形の動的関連性をキャプチャします。また、Transformerエンコーダーを使って音声情報も抽出し、音声と映像特徴を正確に一致させます。対比生成同期トレーニングは、同期の比較と生成の双方を通じてモデルの理解力を向上させます。比較同期ではSeq2Seq Contrastive Learning手法を使い、音声と映像特徴の対応関係を強化し、ReLU活性化関数を使用して干渉フレームをフィルタリングします。生成同期では事前訓練されたASRモデルを使って音声と映像特徴を音響-テキスト表現と一致させ、軽量アダプテーションモジュールを設計してマルチモーダル融合の効率を向上させています。
これらの革新的な技術により、CoGenAVは複数の基準データセットで突破的な成果を達成しています。視覚音声認識(VSR)タスクにおいて、わずか223時間の唇動画を使用してLRS2データセットで20.5%の語誤り率(WER)を達成し、数千時間のデータを使う従来のモデルと同等の結果を示しました。音声映像音声認識(AVSR)タスクでは、Whisper Mediumモデルと組み合わせて同じデータセットで1.27%のWERを達成し、SOTA記録を更新しました。0dBノイズ環境下では従来の純音声モデルよりも80%以上パフォーマンスが向上しました。音声増幅と分離(AVSE/AVSS)タスクでは、LRS2音声分離タスクでSDRi指標が16.0dBに達し、AvHuBERTより1.6dB、Av SepFormerより0.3dB優れました。音声増幅タスクでは、SDRi指標が9.0dBに達し、Av HuBERTより1.6dB優れています。アクティブスピーカー検出(ASD)タスクでは、Talkiesデータセットで平均精度(mAP)が96.3%に達し、現在の方法を大幅に上回っています。
CoGenAVは既存の主流の音声認識モデル、例えばWhisper、に直接接続でき、修正や微調整なしに視覚音声認識機能を実現できます。これにより導入の障壁が低くなり、優れた耐ノイズ能力とデータ効率を示し、トレーニングコストを大幅に削減し、モデルの実用性と拡張可能性を強化しました。現在、CoGenAVの関連コードとモデルはGitHub、arXiv、HuggingFace、ModelScopeなどのプラットフォームでオープンソース化されており、研究者や開発者が利用可能です。
GitHub:https://github.com/HumanMLLM/CoGenAV
arXiv:https://arxiv.org/pdf/2505.03186
HuggingFace:https://huggingface.co/detao/CoGenAV
ModelScope:https://modelscope.cn/models/iic/cogenav