llama3v ist ein visuelles Spitzenmodell (State of the Art), das auf Llama3 8B und siglip-so400m basiert. Es handelt sich um ein quelloffenes VLLM (visuelles Sprach-Multimodal-Lernmodell), dessen Modellgewichte auf Huggingface verfügbar sind. Es unterstützt schnelle lokale Inferenz und der Inferenzcode wurde veröffentlicht. Das Modell kombiniert Bilderkennung und Textgenerierung. Durch Hinzufügen einer Projektionsschicht werden Bildmerkmale in den LLaMA-Einbettungsraum abgebildet, um das Verständnis des Modells für Bilder zu verbessern.