VCoder ist ein Adapter, der die Leistung multimodaler großer Sprachmodelle bei objektbasierten visuellen Aufgaben durch die Integration eines unterstützenden Wahrnehmungsmodus als Steuerungsinput verbessert. VCoder LLaVA basiert auf LLaVA-1.5. VCoder passt die Parameter von LLaVA-1.5 nicht an, daher ist die Leistung in allgemeinen Frage-Antwort-Benchmarks identisch mit LLaVA-1.5. VCoder wurde auf dem COST-Datensatz getestet und erzielte gute Ergebnisse bei semantischer, Instanz- und Panoramasegmentierung. Die Autoren haben auch die Detektorergebnisse und das vortrainierte Modell veröffentlicht.