最近、通話実験室の音声チームは空間オーディオ生成分野で画期的な成果を収め、OmniAudio技術を発表しました。この技術は、360°ビデオからFOA(First-order Ambisonics)オーディオを生成することができ、バーチャルリアリティや没入型エンターテインメントに新しい可能性をもたらします。
空間オーディオはリアルな聴覚環境をシミュレートする技術ですが、現在の技術の多くは固定視点のビデオに基づいており、360°パノラマビデオの空間情報を十分活用していません。従来のビデオからオーディオ生成技術は主に非空間オーディオを生成しますが、没入型体験における3D音声定位の要件を満たすことはできません。また、多くの技術は限定された視角のビデオに基づいているため、パノラマビデオの豊富な視覚コンテキストを見逃しています。360°カメラの普及とバーチャルリアリティ技術の発展により、パノラマビデオを使用した対応する空間オーディオの生成は亟待解決の問題となっています。
これらの課題に対処するために、通話実験室は360V2SA(360-degree Video to Spatial Audio)タスクを提案しました。FOAは標準的な3D空間オーディオフォーマットであり、4つのチャンネル(W、X、Y、Z)を使って音声を表現し、音声の方向性を捉え、リアルな3Dオーディオ再現を可能にします。また、頭部の回転時でも音声の定位精度を保つことができます。
データは機械学習モデルの基盤ですが、現在のペアド360°ビデオと空間オーディオデータは希少です。そのため、研究チームは厳選した基準に基づいてSphere360データセットを構築しました。このデータセットには、10万3,000以上のリアルワールドのビデオクリップが含まれており、288種類のオーディオイベントが含まれ、合計288時間の長さがあります。これは、360°の視覚コンテンツだけでなく、FOAオーディオもサポートしています。構築の過程では、厳格な選別とクリーニングの基準を採用し、多数のアルゴリズムを利用して高品質なアライメントを確保しました。
OmniAudioのトレーニング方法は二段階で行われます。第一段階では、自監督のcoarse-to-fine流マッチング事前学習を行います。チームは大規模な非空間オーディオリソースを効果的に活用し、「ステレオ」を「疑似FOA」形式に変換して四チャンネルVAEエンコーダーに送り込み、潜在表現を得ました。その後、ランダムな時間窓マスクを行う確率で、マスク後の潜在系列と完全な系列を条件として流マッチングモデルに投入し、オーディオの時間的・構造的な自監督学習を行い、モデルに汎用的なオーディオ特徴と大まかな時空法則を学ばせました。第二段階では、双方向ビデオ表現に基づく監視微調整を行います。チームは実際のFOAオーディオデータのみを使用し、引き続きマスク流マッチングトレーニングフレームワークを採用し、音源方向の表現能力を強化し、高忠実度の空間オーディオの詳細再構築効果を向上させました。自監督事前学習が完了後、チームはモデルを双方向ビデオエンコーダーと結合し、監視微調整を行い、ノイズの中から視覚指示に応じたFOA潜在軌跡を特定的に「彫刻」し、360°ビデオと高度に一致し、正確な方向感を持つ四チャンネル空間オーディオを出力しました。
実験設定において、研究チームはSphere360-BenchとYT360-Testテストセットで監視微調整と評価を行いました。オブジェクティブ指標とサブジェクティブ指標を使用して生成オーディオの品質を測定しました。結果では、OmniAudioはすべてのベースラインよりも顕著に優れており、YT360-TestではFD、KL、ΔAngularなどの指標で大幅に減少しました。Sphere360-Benchでも優れた成績を収めました。人間による主観評価では、OmniAudioは空間オーディオの品質と視音同期の両方で最も高いスコアを獲得し、その合成結果が鮮明さ、空間感、および映像との同期性において他のベースラインよりも優れていることが示されました。さらに、削除実験では事前学習戦略、双方向設計、モデル規模の性能向上への貢献が確認されました。
プロジェクトホームページ
https://omniaudio-360v2sa.github.io/
コードとデータオープンソースリポジトリ
https://github.com/liuhuadai/OmniAudio
論文アドレス
https://arxiv.org/abs/2504.14906