Llama-3.2-11B-Vision est un grand modèle linguistique multimodale (LLM) publié par Meta. Il combine les capacités de traitement d'images et de texte, visant à améliorer les performances de la reconnaissance visuelle, du raisonnement d'images, de la description d'images et de la réponse aux questions générales sur les images. Ce modèle surpasse de nombreux modèles multimodaux open source et propriétaires sur des benchmarks sectoriels courants.