VCoder é um adaptador que melhora o desempenho de modelos de linguagem grandes multimodais em tarefas de visão de nível de objeto por meio de um modo de percepção auxiliar como entrada de controle. O VCoder LLaVA é construído com base no LLaVA-1.5. O VCoder não ajusta os parâmetros do LLaVA-1.5, portanto, seu desempenho em benchmarks de perguntas e respostas gerais é o mesmo que o do LLaVA-1.5. O VCoder foi avaliado no conjunto de dados COST e obteve bom desempenho em tarefas de segmentação semântica, de instâncias e panorâmica. Os autores também disponibilizaram os resultados de detecção do modelo e o modelo pré-treinado.