多モーダル大規模モデル

シンガポール国立大学NExT++研究所と清華大学劉知遠チームが共同開発した多モーダル大規模モデルは、検出・セグメンテーションモジュールを統合することで、切り抜き作業をより簡単に行えるようにしました。

自然言語でニーズを記述するだけで、モデルは探し求める対象物を迅速に特定し、テキストによる説明を提供します。

このモデルは複数のタスクデータセットにおいて優れた実験結果を示し、指し示すセグメンテーションとRECタスクにおいて高い能力を有しています。

さらに、このモデルはembeddingに基づいた位置モデリング方式を採用しており、より優れた位置モデリング能力を備えています。

トレーニングプロセスの最適化により、アノテーションデータが不足しているセグメンテーションタスクにおいても良好な結果を得ることが可能です。