最近の人工知能を用いたビデオ生成分野では、TikTokの親会社である字節跳動が、名称「Seedance1.0」という新しいモデルを静かにリリースしました。このモデルは独立した評価において、グーグルが発表した最新モデルの「Veo3」を上回っていることが明らかとなりました。Veo3はその音声合成と映画級ツールで注目を集めていますが、Seedance1.0の技術力には驚かされることになります。
Seedance1.0の研究論文では、このモデルの革新点について詳しく説明されています。字節跳動のチームは空間層と時間層の分離を行い、マルチモーダルな位置エンコーディングを組み合わせることで、このモデルがテキストからビデオや画像からビデオの生成タスクを同時に処理できるようにしました。このような方法は複雑なシーンの切り替えやマルチショットの物語展開を可能にし、一貫したテーマ表現を維持します。
さらに、Seedance1.0のパフォーマンスは字節跳動の強力なデータパイプラインによって支えられています。チームは詳細なバイリンガル注釈と豊富な動作および静止画特徴のラベル付けを持つ大規模な多ソースデータセットを慎重に構築し、生成コンテンツの正確性を確保しました。また、新しい強化学習の設定を採用し、基礎対応性、動きの質、美しさを重視する3つの報酬モデルを組み合わせました。
評価では、Seedance1.0がVeo3を複数の指標で上回ることが確認されました。「SeedVideoBench」ベンチマークテストにおいて映画監督と共同開発されたこのモデルは、プロンプトの忠実さと動きのリアリズムで高い得点を得ました。画像からビデオへのタスクでは、Seedanceは入力フレームの視覚的一貫性を維持しましたが、Veo3は特定の条件下で光やテクスチャの変化が見られました。
推論性能面でもSeedance1.0は優れたパフォーマンスを示しました。このモデルは1080pの5秒間のビデオを41.4秒以内に生成できます。これは他の競合他社、例えばSora、Runway Gen-4、Veo3よりも大幅に速い速度です。字節跳動はコスト削減と遅延の短縮において大きな進展があり、ビデオ生成がリアルタイムアプリケーションに近づいていることを示しています。
Seedance1.0は2025年6月にDoubaoやJimengなどのプラットフォームに統合される予定で、専門的なワークフローと日常的なクリエイティブタスクの大幅な改善を目指しています。Veo3はリアルなビデオと環境音声、会話の最初の組み合わせで注目を集めましたが、Seedance1.0は視覚的な忠実さ、動きの安定性、物語の一貫性においてさらに優れていますが、音声能力ではやや劣っています。
ポイント:
🌟 Seedance1.0のリリースにより、グーグルのVeo3を上回り、ビデオ生成技術の新たな基準となっています。
⚙️ このモデルはマルチモーダルな位置エンコーディングを通じて複雑なシーン切り替えやマルチショットの物語展開を実現しました。
⚡ Seedance1.0は生成速度と視覚的一貫性で優れており、2025年には専門的なクリエイティブツールとして重要な役割を果たすでしょう。