Meta AI研究チームは、人工知能の分野で新たな突破を遂げ、2025年6月11日に新しいビデオ理解モデルである「V-JEPA2(Video Joint Embedding Predictive Architecture2)」を正式に発表しました。このモデルは、Metaの最高AI科学者であるイアン・レクン氏が率いるチームによって開発され、革新的な自己教師あり学習技術とゼロショットロボット制御能力により、ビデオ理解や物理世界のモデリングに新しい可能性をもたらしました。AIbaseは、この最先端技術およびその潜在的な影響について詳しく解説しています。
V-JEPA2: ビデオ理解の「ワールドモデル」
V-JEPA2は、ビデオ理解に特化した生成型AIモデルではなく、ビデオ内の出来事を観察し、それが何であるかを判断し、その後の展開を予測できる非生成型AIモデルです。従来のビデオ分析モデルとは異なり、V-JEPA2はヒューマンライクな認知方法を模倣し、大量の未ラベルビデオデータから抽象的な表現を抽出して、物理世界に対する内なる理解を構築します。この「ワールドモデル」アーキテクチャにより、モデルは単にビデオ内の物体間の相互作用だけでなく、物体の動きやシーンの変化を予測することができるようになります。
Metaによれば、V-JEPA2のトレーニングには100万時間以上のビデオデータが使用され、多種多様なシーンとインタラクションが含まれています。このような大規模なトレーニングにより、モデルは強力な汎化能力を獲得し、追加のトレーニングなしで新しいタスクや未知の環境に対応できるようになりました。
技術革新: 5つのハイライトが未来のAIを駆動
V-JEPA2の技術的ブレークスルーは以下の5つの核心的な側面に現れています:
自己教師あり学習: V-JEPA2は大量のラベル付きデータに依存せず、未ラベルのビデオから知識を抽出するために自己教師あり学習を使用し、データ準備コストを大幅に削減します。
オカージョン予測メカニズム: モデルはビデオ内の特定領域をランダムに隠蔽し、その隠された内容を予測するように訓練されます。この「穴埋め問題」を通じて、モデルはビデオの深い意味を学習します。
抽象表現の学習: 傳統的なピクセルレベルでの再構築とは異なり、V-JEPA2はビデオの抽象的な意味を学習し、物体間の関係やダイナミックな変化を理解します。単に画面の詳細を記憶するのではなく、本質的な意味を把握します。
ワールドモデルアーキテクチャ: モデルは物理世界に対する内なる理解を構築し、「物体の動きや相互作用を想像」できるようになります。たとえば、ボールの跳ね返りの軌跡や物体の衝突結果を予測することができます。
効率的な転移能力: 物理世界に対する基礎的な理解に基づいて、V-JEPA2は新しいタスクに迅速に適応でき、特にロボット制御分野では優れたゼロショット学習能力を示します。
これらの革新により、V-JEPA2はビデオ分類、動作認識、時空間動作検出などのタスクにおいて優れたパフォーマンスを発揮し、従来のモデルを凌ぐ性能を達成し、トレーニング効率は1.5〜6倍向上しました。
ゼロショットロボット制御: AIと現実世界の橋渡し
V-JEPA2の最も注目すべき応用の一つは、ゼロショットロボット制御です。従来のロボット制御モデル(例えばYOLO)は特定のタスクに対して大量のトレーニングが必要ですが、V-JEPA2はその強力な転移能力と物理世界の理解力により、専門的なトレーニングを行わなくても新しいタスクを実行できます。例えば、ロボットはビデオ入力を基に環境を理解し、物体を動かしたり、見知らぬ環境でナビゲートしたりすることができます。
Metaによれば、V-JEPA2の「ワールドモデル」能力はロボット分野に大きな可能性をもたらします。たとえば、ロボットはビデオを通じて重力や衝突といった物理法則を理解し、現実世界で複雑なタスク、例えば料理や家事支援などを遂行できるようになります。この特性は、将来的なスマートロボットや拡張現実(AR)デバイスの開発に基礎を築きます。
パフォーマンス比較: 高速化と効率の飛躍
Metaの公式データによると、V-JEPA2は複数のベンチマークテストで優れたパフォーマンスを発揮しています。特に行動理解とビデオタスクにおいて、従来のViT-L/16やHiera-Lエンコーダーベースのモデルを上回っています。NVIDIAのCosmosモデルと比較すると、V-JEPA2のトレーニング速度は30倍速く、卓越した効率性を示しています。また、少数のラベルデータだけで高い精度を達成するため、汎化能力も非常に強力です。
オープンソース: グローバルなAI研究の促進
オープンサイエンスの理念に基づき、MetaはV-JEPA2をCC-BY-NCライセンスのもとで公開し、世界中の研究者や開発者が無料で使用できるようにしました。モデルのコードはGitHubで公開されており、Google ColabやKaggleなどのプラットフォームで実行可能です。さらに、Metaは物理推論ベンチマークテストの3つ(MVPBench、IntPhys2、CausalVQA)を公開し、ビデオ理解とロボット制御分野の研究者が標準的な評価ツールを利用できるようにしました。
未来の展望: 一般知能への重要な一歩
V-JEPA2の発表は、Metaが**高度な機械知能(AMI)**を目指す道の上で重要なステップです。イアン・レクン氏はビデオの中で次のように述べています。「ワールドモデルはロボティクスの新时代を開くでしょう。AIエージェントは大量のトレーニングデータを必要とせずに現実世界のタスクを遂行できるようになります。」未来、MetaはV-JEPA2の機能をさらに拡張し、音声分析や長時間のビデオ理解能力を追加することで、ARグラスや仮想アシスタントなどのアプリケーションにさらなるサポートを提供することを目指します。
AIbaseは、V-JEPA2の発表はビデオ理解分野の技術的なブレークスルーであり、AIが単一タスク処理から汎用知能への進化を示すものだと考えています。そのゼロショットロボット制御能力は、ロボット、メタバース、そしてスマートインタラクティブデバイスの発展に無限の可能性を提供します。
AIbaseの結び
MetaのV-JEPA2は、革新的な自己教師あり学習とワールドモデルアーキテクチャにより、ビデオ理解とロボット制御分野に革命的な変革をもたらしました。ライブコマースからスマートホームまで、このモデルの幅広い応用前景は期待されています。