Pixtral-12B-2409 est un modèle multimodal développé par l'équipe Mistral AI. Il comprend un décodeur multimodal de 12 milliards de paramètres et un encodeur visuel de 400 millions de paramètres. Ce modèle excelle dans les tâches multimodales, prend en charge les images de différentes tailles et maintient des performances de pointe dans les tests de référence textuels. Il convient aux applications avancées nécessitant le traitement de données textuelles et imagées, telles que la génération de descriptions d'images et la question-réponse visuelle.