Llama3v est un modèle de vision SOTA (State Of The Art) basé sur Llama3 8B et siglip-so400m. Il s'agit d'un modèle VLLM (Visual Language Large Model) open source dont les poids sont disponibles sur Hugging Face. Il permet une inférence locale rapide et son code d'inférence est public. Ce modèle combine la reconnaissance d'images et la génération de texte. Il améliore la compréhension des images grâce à l'ajout d'une couche de projection qui mappe les caractéristiques de l'image dans l'espace d'intégration de LLaMA.