Metaが発表した「あらゆるものを分割する」モデルSAMは、画像セグメンテーションの分野で圧倒的な成果を上げていますが、ビデオオブジェクトトラッキングとなるとやや苦戦します。特に、人が密集している状況や、対象物が高速で移動したり、「かくれんぼ」をするようなシーンでは、SAMは混乱しがちです。これは、SAMモデルのメモリ機構が「固定ウィンドウ」のようなもので、最近の画像しか記録せず、記憶内容の質を無視するため、ビデオ内で誤差伝播が発生し、トラッキング効果が大幅に低下するためです。
この問題を解決するため、ワシントン大学の研究者たちは、SAM2を「徹底的に改良」したSAMURAIというモデルを開発しました。これはビデオオブジェクトトラッキング専用です。SAMURAIという名前は威風堂々としており、その実力も折り紙付きです。時間的運動手がかりと新たに提案された運動感知メモリ選択機構を組み合わせることで、熟練の武士のように対象物の動きを正確に予測し、マスク選択を改良することで、再トレーニングや微調整なしに、堅牢で正確なトラッキングを実現します。
SAMURAIの秘訣は2つの革新的な点にあります。
第一の技:運動モデリングシステム。このシステムは武士の「鷹の目」のように、複雑なシーンにおける対象物の位置をより正確に予測することで、マスクの選択を最適化し、SAMURAIが類似の対象物に惑わされるのを防ぎます。
第二の技:運動感知メモリ選択機構。SAMURAIは、SAM2の単純な「固定ウィンドウ」メモリ機構を捨て、混合スコアシステムを採用しています。元のマスクの類似度、オブジェクトスコア、運動スコアを組み合わせることで、武士が武器を厳選するように、最も関連性の高い履歴情報のみを保持し、モデル全体のトラッキング信頼性を向上させ、誤差伝播を防ぎます。
SAMURAIは武芸に長け、身軽でリアルタイム動作も可能です。さらに重要なのは、様々なベンチマークデータセットで強力なゼロショット性能を示していることです。これは、特別なトレーニングなしに様々なシーンに対応できることを意味し、非常に高い汎化能力を示しています。
実地テストでは、SAMURAIは成功率と精度において、既存のトラッカーを大幅に上回りました。例えば、LaSOTextデータセットでは7.1%のAUC向上、GOT-10kデータセットでは3.5%のAO向上を達成しました。さらに驚くべきことに、LaSOTデータセットでは完全に教師ありの方法と匹敵する結果を達成しており、複雑なトラッキングシーンにおける強力な能力と、動的な環境における実用的な可能性を十分に証明しています。
SAMURAIの成功は、運動情報の巧妙な活用によるものです。研究者たちは、従来のカルマンフィルタとSAM2を組み合わせ、対象物の位置とサイズを予測することで、モデルが複数の候補マスクの中から最も信頼性の高いマスクを選択するのを支援しました。さらに、マスク類似度スコア、オブジェクト出現スコア、運動スコアの3つのスコアに基づいたメモリ選択機構を設計しました。これらの3つのスコアがすべて閾値に達した場合のみ、そのフレームの画像がメモリに保存されます。この選択的なメモリ機構により、無関係な情報の干渉を効果的に回避し、トラッキングの精度を向上させています。
SAMURAIの登場は、ビデオオブジェクトトラッキング分野に新たな希望をもたらしました。既存のトラッカーを性能面で上回るだけでなく、再トレーニングや微調整が不要で、様々なシーンに容易に適用できます。将来的には、自動運転、ロボット工学、ビデオ監視などの分野で重要な役割を果たし、よりスマートな生活体験をもたらすと期待されます。
プロジェクトアドレス:https://yangchris11.github.io/samurai/
論文アドレス:https://arxiv.org/pdf/2411.11922