シンガポール国立大学NExT++研究所と清華大学劉知遠チームが共同開発した多モーダル大規模モデルは、検出・セグメンテーションモジュールを統合することで、切り抜き作業をより簡単に行えるようにしました。
自然言語でニーズを記述するだけで、モデルは探し求める対象物を迅速に特定し、テキストによる説明を提供します。
このモデルは複数のタスクデータセットにおいて優れた実験結果を示し、指し示すセグメンテーションとRECタスクにおいて高い能力を有しています。
さらに、このモデルはembeddingに基づいた位置モデリング方式を採用しており、より優れた位置モデリング能力を備えています。
トレーニングプロセスの最適化により、アノテーションデータが不足しているセグメンテーションタスクにおいても良好な結果を得ることが可能です。