バイトダンスがAIモデルLatentSyncをオープンソース化　正確な唇の同期を実現

AIbase基地

公開日AIニュース · 1 分で読めます · Jan 6, 2025

686

バイトダンスは最近、LatentSyncという革新的な技術をオープンソース化しました。これは、オーディオ条件に基づく潜在的拡散モデルを用いた、エンドツーエンドのリップシンクフレームワークです。この技術は、中間的な動き表現を一切必要とせず、ビデオ内の人物の唇の動きとオーディオを正確に同期させることができます。従来のピクセル空間拡散や二段階生成によるリップシンク方法とは異なり、LatentSyncはStable Diffusionの強力な機能を直接活用することで、複雑な視聴覚関係をより効果的にモデル化できます。

研究によると、拡散ベースのリップシンク方法は、異なるフレーム間の拡散プロセスに不一致があるため、時間的一貫性に劣ることが分かっています。この問題を解決するために、LatentSyncは時間表現アライメント（TREPA）技術を導入しました。TREPAは大規模な自己教師ありビデオモデルから抽出した時間表現を利用して、生成されたフレームと実際のフレームをアライメントすることで、時間的一貫性を高めながら、リップシンクの精度を維持します。

さらに、研究チームはSyncNetの収束問題を深く研究し、広範な実証研究を通じて、モデルアーキテクチャ、トレーニングハイパーパラメータ、データ前処理方法など、SyncNetの収束に影響を与える重要な要素を特定しました。これらの要素を最適化することで、SyncNetのHDTFテストセットにおける精度は91％から94％へと大幅に向上しました。SyncNetの全体的なトレーニングフレームワークに変更を加えていないため、この経験は、SyncNetを利用する他のリップシンクやオーディオ駆動の人物アニメーション方法にも適用できます。

LatentSyncの利点

エンドツーエンドフレームワーク：中間的な動き表現を必要とせず、オーディオから直接同期した唇の動きを生成します。

高品質な生成：Stable Diffusionの強力な能力を利用して、ダイナミックでリアルな会話ビデオを生成します。

時間的一貫性：TREPA技術により、ビデオフレーム間の時間的一貫性を高めます。

SyncNetの最適化：SyncNetの収束問題を解決し、リップシンクの精度を大幅に向上させました。

動作原理

LatentSyncの中核は、画像から画像への修復技術に基づいており、マスク付きの画像を入力として参照する必要があります。元のビデオの人間の顔の視覚的特徴を統合するために、モデルは参照画像も入力します。これらの入力情報はチャネル連結された後、U-Netネットワークに入力され処理されます。

モデルは、事前学習済みのオーディオ特徴抽出器Whisperを使用してオーディオ埋め込みを抽出します。唇の動きは周囲のフレームのオーディオの影響を受ける可能性があるため、モデルは複数の周囲フレームのオーディオをまとめて入力し、より多くの時間情報を提供します。オーディオ埋め込みは、クロスアテンション層を通じてU-Netに統合されます。

SyncNetが画像空間入力を必要とする問題を解決するために、モデルはまずノイズ空間で予測を行い、次にシングルステップ法で推定されたクリーンな潜在空間を取得します。ピクセル空間でSyncNetを訓練する方が潜在空間で訓練するよりも効果的であることが判明しました。これは、VAEエンコーディングプロセスで唇領域の情報が失われる可能性があるためです。

トレーニングプロセスは2段階に分かれています。第1段階では、U-Netが視覚的特徴を学習し、ピクセル空間のデコードとSyncNet損失の追加は行いません。第2段階では、デコードされたピクセル空間の教師あり学習方法でSyncNet損失を追加し、LPIPS損失を使用して画像の視覚的品質を向上させます。モデルが時間情報を正しく学習できるように、入力ノイズにも時間的一貫性を持たせる必要があり、モデルは混合ノイズモデルを採用しています。さらに、データ前処理段階では、アフィン変換を使用して顔の正面化も行っています。

TREPA技術

TREPAは、生成された画像シーケンスと実際の画像シーケンスの時間表現をアライメントすることで、時間的一貫性を向上させます。この方法は、大規模な自己教師ありビデオモデルVideoMAE-v2を使用して時間表現を抽出します。画像間の距離損失のみを使用する方法とは異なり、時間表現は画像シーケンスの時間的関連性を捉えることができ、全体的な時間的一貫性を向上させます。研究によると、TREPAはリップシンクの精度を損なうどころか、向上させる可能性があることが分かりました。

SyncNetの収束問題

研究によると、SyncNetのトレーニング損失は0.69付近で停滞しやすく、それ以上減少することがありませんでした。広範な実験分析を通じて、研究チームは、バッチサイズ、入力フレーム数、データ前処理方法がSyncNetの収束に大きな影響を与えることを発見しました。モデルアーキテクチャも収束に影響を与えますが、その影響は比較的小さいです。

実験結果によると、LatentSyncは複数の指標において、他の最先端のリップシンク方法よりも優れています。特にリップシンクの精度においては、最適化されたSyncNetとオーディオクロスアテンション層のおかげで、オーディオと唇の動き間の関係をより適切に捉えることができます。さらに、TREPA技術を採用したことで、LatentSyncの時間的一貫性も大幅に向上しました。

プロジェクトアドレス：https://github.com/bytedance/LatentSync

推論版局所再描画方法LanPaint　ゼロトレーニングで画像修復

先日、開発者scraedがGitHub上でLanPaintを公開しました。これは、追加のトレーニングなしで画像修復を行うツールです。このツールは、ユーザーが独自のモデルを含むあらゆる安定拡散モデル（SD）で高品質の画像修復を実現することを目的としています。LanPaintは、ノイズ除去の前にモデルに「思考」させることで、よりシームレスで正確な修復結果を得ます。LanPaintの主な特徴の一つは、ゼロトレーニング修復です。ユーザーはすぐに…

バイトダンス、超リアルな口パク同期を実現するリップシンクモデルLatentSyncをオープンソース化

先日、バイトダンスは、オーディオ条件付き潜在拡散モデルを利用してより正確なリップシンクを実現することを目的とした、LatentSyncという新しいリップシンクフレームワークを発表しました。このフレームワークはStable Diffusionをベースに、時間的一貫性を最適化しています。従来のピクセル空間拡散や2段階生成の方法とは異なり、LatentSyncはエンドツーエンド方式を採用し、中間モーション表現を必要とせず、複雑なオーディオとビジュアル間の関係を直接モデル化できます。LatentSyncの

Stable Diffusion 3.5 LargeがAmazon Bedrockプラットフォームで正式に利用可能に

最近のAWS re:Inventカンファレンスで、Stable Diffusion 3.5 Large（SD3.5 Large）がAmazon Bedrockプラットフォームで正式に利用可能になったことが発表されました。AWSのフルマネージドプラットフォームであるBedrockは、開発者がジェネレーティブAIアプリケーションを構築および拡張するための基盤モデルを提供することを目的としています。Stability AIは、SD3.5 LargeをAmazon Bedrockに導入することで、

AI日報：智譜AIがAutoGLMをアップグレード、KimiがAI動画生成機能のクローズドベータテストを実施、SD3.5Lに3つのControlNet機能追加、ChatGPT誕生2周年

【AI日報】へようこそ！ここでは、AIの世界を探求するための毎日のガイドを提供します。毎日、AI分野のホットな話題、開発者への注目、技術トレンドの理解、革新的なAI製品応用の把握をお届けします。新しいAI製品はこちらでご確認ください：https://top.aibase.com/1. 衝撃的発表！企業は資金調達と技術革新、特にスーパーコンピューターの構築を通じて、業界における地位をさらに強化しました。

AI日報：SD 3.5 Mediumモデル無料商用利用可能に；Hedraが新しい音声クローン機能を発表；微信がAI質問応答機能の段階的導入テストを実施；ComfyUIの新ツールComfyUI-Detail-Daemon

【AI日報】へようこそ！ここでは、毎日AIの世界を探求するためのガイドとして、AI分野のホットな話題を毎日お届けします。開発者に焦点を当て、技術トレンドの洞察と革新的なAI製品の応用を支援します。最新のAI製品はこちらをご覧ください：https://top.aibase.com/1、無料商用利用可能！AnthropicのClaude3.5Sonnetモデルをベースにしたこのアシスタントは、コードの再構成やドキュメントの生成を自動的に処理し、開発者の作業効率を向上させます。

Stable Diffusionサンプラーの選び方：Stable Diffusionサンプラー解説ガイド

Stable Diffusionには多くのサンプラーがありますが、どのサンプラーがどの場面に適しているのか分からないという方もいるのではないでしょうか。この記事では、Stable Diffusionサンプラー解説ガイドとして、様々なサンプラーのノイズ除去プロセスにおけるメリットとデメリットを比較・解説します。Stable Diffusionのサンプラー選択は、実際のニーズとソフトウェアが提供するサンプラーの種類によって異なります。Stable Diffusionのサンプラーは、用途に応じて選択する必要があります。

LCM-LoRA技術によるAIアート生成の高速化

LCM-LoRA技術により、AIアートの即時生成を実現。長時間待つ必要はもうありません。2Dおよび3D画像に対応し、アーティストは没入型メディアを迅速に制作できます。Stable Diffusionベースのアプリケーションに直接挿入できる汎用的な高速化モジュールです。清華大学とHugging Faceが共同開発し、サンプリングステップの削減により、より高品質で高速な画像生成を実現します。

AIニュース

AIデイリー

AIタイムライン

Alハードウェアです

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要

バイトダンスがAIモデルLatentSyncをオープンソース化 正確な唇の同期を実現