MASAは、複雑なシーンにおけるマルチオブジェクトトラッキング(MOT)にも対応できる、ビデオフレーム内オブジェクトマッチングのための高度なモデルです。MASAは特定の分野に限定されたアノテーション付きビデオデータセットに依存せず、Segment Anything Model(SAM)による豊富なオブジェクトセグメンテーションを活用して、インスタンスレベルの対応関係を学習します。MASAは汎用アダプターを設計しており、基本的なセグメンテーションモデルまたは検出モデルと組み合わせて使用することで、ゼロショットトラッキング機能を実現し、複雑な分野でも優れた性能を発揮します。