バイトダンスは、ビデオの理解と編集に特化した新しいマルチモーダルモデル「Vidi」を発表しました。最初の主要機能は、正確な時間検索機能です。AIbaseの情報によると、Vidiは視覚、音声、テキストの入力を処理でき、最長1時間の長尺ビデオ分析に対応し、時間検索タスクにおいてGPT-4oやGeminiなどの主要モデルを上回る性能を発揮します。この画期的な技術は、AIコミュニティで活発な議論を巻き起こしており、詳細はバイトダンスの公式チャンネルとGitHubで公開されています。

1.jpg

主な機能:正確な時間検索とマルチモーダル連携

Vidiは、強力な時間検索とマルチモーダル処理機能により、ビデオの理解と編集に新しいソリューションを提供します。AIbaseがその主な機能をまとめました:

時間検索の正確な位置特定:Vidiは、テキストプロンプトまたはマルチモーダル入力に基づいて、ビデオ内の特定のセグメント(例:「キャラクターが踊っている30秒間のセグメントを見つける」)を秒単位の精度で特定し、コンテンツ検索の効率を大幅に向上させます。

長尺ビデオのサポート:最長1時間のビデオを処理でき、従来のモデルが長シーケンスビデオの理解において抱えていたメモリと計算のボトルネックを解消し、映画、ライブストリーム、会議録画の分析に適しています。

マルチモーダル入力処理:視覚(フレームシーケンス)、音声(音声、バックグラウンドノイズ)、テキスト(字幕、説明)を統合し、クロスモーダルセマンティック理解を実現します。例えば、音声の感情に基づいてビデオのハイライトを特定することができます。

効率的な編集機能:時間検索に基づいたビデオセグメントのクリッピング、再構成、アノテーションをサポートし、コンテンツ作成とポストプロダクションのプロセスを簡素化します。

AIbaseは、コミュニティテストで、VidiがYouku-mPLUGデータセット(1000万件のビデオ-言語ペア)を処理する際に、複雑なシーンのセグメントを迅速に特定し、ActivityNet時間検索タスクにおけるGPT-4oの性能を上回っていること(精度が約10%向上)に注目しています。

技術アーキテクチャ:革新的な時間エンコーディングとマルチモーダル融合

Vidiは、バイトダンスのVeOmniフレームワークに基づいており、ビデオ専用の巨大言語モデル(Vid-LLM)と時間強化トランスフォーマーアーキテクチャを組み合わせています。AIbaseの分析によると、そのコア技術には以下が含まれます:

時間強化トランスフォーマー:時間埋め込み(Temporal Embedding)と階層的アテンションメカニズムにより、長シーケンスビデオの时空関係のモデリングを最適化し、高精度な時間検索を保証します。

マルチモーダルエンコーダー:Chat-UniViの統一された視覚表現を採用し、ビデオフレーム、音声波形、テキスト埋め込みを融合し、クロスモーダルセマンティックアライメントをサポートし、情報の損失を削減します。

効率的な推論最適化:バイトダンスのByteScale分散型トレーニングシステムを利用し、4ビット量子化と動的チャンク処理を組み合わせることで、長尺ビデオ処理の計算コストを大幅に削減します。

データセット駆動型:トレーニングデータにはYouku-mPLUG(1000万件のビデオ-言語ペア)とWebVid-10Mが含まれており、多言語と多様なシーンを網羅し、モデルの汎化能力を高めています。

AIbaseは、Vidiの時間検索能力は、革新的なPHD-CSWA(Chunk-wise Sliding Window Attention)メカニズムによるものであり、バイトダンスが以前発表した効率的な事前トレーニングの長さスケーリング技術と一脈相通じるものであり、特に長シーケンスタスクに適していると考えています。

アプリケーションシナリオ:コンテンツ作成からインテリジェント分析まで

Vidiのマルチモーダル能力と長尺ビデオサポートは、幅広いアプリケーションシナリオを開拓しています。AIbaseはその主な用途をまとめました:

コンテンツ作成と編集:ビデオクリエーターに正確なセグメント特定と自動編集ツールを提供し、ショートビデオ、Vlog、映画予告編の作成を簡素化します。例えば、ライブストリームからハイライトを迅速に抽出することができます。

インテリジェントビデオ分析:企業が長時間の会議録画や監視ビデオを分析し、重要なイベント(例:「予算に関する議論のセグメント」)を自動的にアノテーションして、情報検索の効率を向上させることができます。

教育とトレーニング:教育ビデオを解析し、特定の知識点やインタラクティブなセグメントを特定し、カスタマイズされた学習セグメントを生成します。オンライン教育プラットフォームに適しています。

エンターテイメントと推奨:TikTokなどのプラットフォームのビデオ推奨システムを最適化し、セマンティックと時間分析を通じてコンテンツの一致精度を高め、ユーザーエクスペリエンスを向上させます。

コミュニティのフィードバックによると、Vidiは長編中国語ビデオ(バラエティ番組など)の処理において特に優れた性能を発揮しており、多言語サポート(8言語に対応)により、グローバルなアプリケーションの可能性がさらに広がっています。AIbaseは、VidiがバイトダンスのDoubaoモデルエコシステムとシームレスに統合されており、商業展開のための堅実な基盤を提供していると見ています。

入門ガイド:オープンソースサポート、開発者フレンドリー

AIbaseの情報によると、Vidiのコードと事前トレーニング済みモデルはGitHubでオープンソース化される予定です(github.com/ByteDance-Seed/Vidi予定)。PyTorchとVeOmniフレームワークをサポートしています。開発者は以下の手順で簡単に始めることができます:

Vidiリポジトリをクローンし、Python 3.9+とNVIDIA CUDAの依存関係をインストールします。

Youku-mPLUGまたはWebVid-10Mデータセットをダウンロードし、時間検索タスクを設定します。

提供されているvidi.yamlスクリプトを使用して推論を実行し、マルチモーダルプロンプト(例:「講演者がAIについて言及している部分を見つける」)を入力します。

特定されたセグメントまたは編集結果をエクスポートします。MP4またはJSON形式をサポートしています。

コミュニティが提供するDockerイメージとHugging Faceの統合により、展開プロセスが簡素化されます。推奨ハードウェアはNVIDIA A100(40GB)またはRTX3090(24GB)です。AIbaseは、開発者にActivityNetまたはEgoSchemaデータセットでのVidiの時間検索機能を優先的にテストして、その性能上の優位性を検証することを推奨します。

性能比較:GPT-4oとGeminiを上回る

Vidiの時間検索タスクにおける性能は特に優れています。AIbaseは、主要なモデルとの比較をまとめました:

時間検索精度:ActivityNetデータセットにおいて、Vidiの精度はGPT-4oよりも約10%高く、Gemini 1.5 Proよりも約12%高く、特に長尺ビデオ(>30分)において安定した性能を発揮します。

処理速度:Vidiは1時間のビデオを平均5~7分で処理します(128個のGPUを使用)。これはGPT-4oの8~10分を上回っており、チャンクアテンションメカニズムによるものです。

マルチモーダル理解:VidiはYouku-mPLUGのビデオQ&Aタスクにおいて、総合スコア(視覚、音声、テキストを組み合わせたもの)がGemini 1.5 Proよりも約5%高く、GPT-4oと同等です。

コミュニティの分析によると、Vidiの性能上の優位性は、汎用的なマルチモーダル設計ではなく、ビデオ分野に特化した最適化によるものであり、特に時間認識と長シーケンス処理においてより的を絞っているためです。AIbaseは、Vidiのオープンソース化がVid-LLM分野の競争をさらに促進すると予測しています。

プロジェクトアドレス:https://bytedance.github.io/vidi-website/