GPT-4Vの視覚精度向上のための新しい手法

最新の研究で、GPT-4Vの視覚精度を向上させるための視覚的プロンプト手法であるSet-of-Mark(SoM)が提案されました。

実験により、GPT-4V+SoMは画像セグメンテーションタスクにおいて優れた性能を示し、専用モデルに匹敵する結果が得られました。

SoMの自動/半自動マーキング手法により、GPT-4Vは参照タスクやビデオオブジェクトセグメンテーションを含む、様々な細粒度の視覚タスクに対応できるようになりました。