llama3v
Spitzenmodell (State of the Art) für visuelle Anwendungen, basierend auf Llama3 8B.
Normales ProduktBildVisuelles ModellMultimodales Lernen
llama3v ist ein visuelles Spitzenmodell (State of the Art), das auf Llama3 8B und siglip-so400m basiert. Es handelt sich um ein quelloffenes VLLM (visuelles Sprach-Multimodal-Lernmodell), dessen Modellgewichte auf Huggingface verfügbar sind. Es unterstützt schnelle lokale Inferenz und der Inferenzcode wurde veröffentlicht. Das Modell kombiniert Bilderkennung und Textgenerierung. Durch Hinzufügen einer Projektionsschicht werden Bildmerkmale in den LLaMA-Einbettungsraum abgebildet, um das Verständnis des Modells für Bilder zu verbessern.
llama3v Neueste Verkehrssituation
Monatliche Gesamtbesuche
513197610
Absprungrate
36.07%
Durchschnittliche Seiten pro Besuch
6.1
Durchschnittliche Besuchsdauer
00:06:32