VCoderは、補助的なパーセプションモードを制御入力として用いることで、マルチモーダル大規模言語モデルのオブジェクトレベルのビジョンタスクにおける性能を向上させるアダプターです。VCoder LLaVAはLLaVA-1.5をベースに構築されています。VCoderはLLaVA-1.5のパラメータを微調整しないため、一般的なQ&Aベンチマークにおける性能はLLaVA-1.5と同等です。VCoderはCOSTデータセットでベンチマークされており、セマンティックセグメンテーション、インスタンスセグメンテーション、パノラマセグメンテーションの各タスクで良好な性能を示しています。また、モデルの検出結果と事前学習済みモデルも公開されています。