研究者らは、TCOVISと呼ばれるオンライン動画インスタンスセグメンテーション技術を提案しました。この技術は、メモリモジュールを構築し、辞書学習戦略を採用することで時間的一貫性を達成します。これにより、過去のフレームの特徴を保存し、現在のフレームとマッチングさせることで、セグメンテーション結果の時間的な連続性を維持できます。
さらに、この技術は、動画に新しく出現するインスタンスに対応するために、オンライン学習と自己教師あり学習戦略を設計しています。実験の結果、TCOVISは他の主流な手法と比較して、時間的一貫性指標において優れた性能を示し、エッジデバイスへの展開によるリアルタイムで高品質な動画インスタンスセグメンテーションを実現できることが示されました。