CyberHostは、エンドツーエンドのオーディオ駆動型人体アニメーションフレームワークです。領域コードブックアテンションメカニズムにより、手の完全性、同一性、自然な動きの生成を実現しています。このモデルは、双U-Netアーキテクチャを基本構造として使用し、モーションフレーム戦略によって時間的継続性を確保することで、オーディオ駆動型人体アニメーションの基盤を構築しています。CyberHostは、ボディモーションマップ、ハンドクリアネススコア、ポーズアライメントリファレンス特徴、ローカルエンハンスメントスーパービジョンなど、人間中心のトレーニング戦略を数多く採用することで、合成結果の品質を向上させています。CyberHostは、人体範囲でゼロショットビデオ生成を実現した最初のオーディオ駆動型人体拡散モデルです。