テクノロジーの大手メタと香港中文大学の研究チームは共同で、Multi-SpatialMLLM モデルを発表しました。この新しいフレームワークは、マルチモーダル大規模言語モデル(MLLMs)の発展において特に空間理解分野で重要な進展を遂げています。このモデルは、深層知覚、視覚対応、ダイナミック知覚の3つのコンポーネントを統合することで、従来の単一フレーム画像分析の制限を超えて、より複雑な視覚タスクを強力にサポートしています。
近年、ロボットや自動運転などの分野における空間理解能力のニーズが増加する中で、既存の MLLMs には多くの課題が浮き彫りになっています。研究では、基礎的な空間推論タスクで既存モデルが十分に機能していないことが明らかになりました。例えば、左右方向の正確な区別ができません。これは、専門的なトレーニングデータが不足していることに加え、従来の方法は基本的に静的な視点に基づいて分析しており、動的な情報を処理できていないためです。
このような問題を解決するために、メタのFAIRチームと香港中文大学は MultiSPA データセットを共同開発しました。このデータセットは、3Dや4Dシーンを含む超過2700万のサンプルをカバーし、Aria Digital TwinやPanoptic Studioなど高度なラベル付けデータを組み合わせ、GPT-4oを使用してさまざまなタスクテンプレートを生成しています。
さらに、研究チームは深層知覚、カメラ移動知覚、物体サイズ知覚など5つの訓練タスクを設計し、Multi-SpatialMLLMのマルチフレーム空間推論能力を向上させました。一連のテストの結果、Multi-SpatialMLLMはMultiSPAベンチマークテストで優れたパフォーマンスを示し、平均で36%向上しました。質的タスクでの正確率も80〜90%に達し、ベースラインモデルの50%を大幅に超えました。特に高難度タスクであるカメラ移動ベクトルの予測でも、18%の正確率を達成しました。
BLINKベンチマークテストでは、Multi-SpatialMLLMの正確率がほぼ90%に達し、平均で26.4%向上し、複数の専用システムを上回りました。また標準の視覚質問応答(VQA)テストでも、従来のパフォーマンスを維持し、過剰適合による空間推論タスクへの依存がないにもかかわらず、良好な汎用能力を示しました。
要点:
🌟 メタが開発した Multi-SpatialMLLM モデルは、マルチモーダル大規模言語モデルの空間理解能力を大幅に向上させました。
📊 新しいモデルは、深層知覚、視覚対応、ダイナミック知覚の3つのコンポーネントを統合し、単一フレーム画像分析の制限を克服しました。
🏆 Multi-SpatialMLLM は複数のベンチマークテストで優れたパフォーマンスを示し、正確率が大幅に向上し、従来のモデルを上回りました。