Pixtral-12B-2409 é um modelo multimodal desenvolvido pela equipe Mistral AI, contendo um decodificador multimodal de 12B parâmetros e um codificador visual de 400M parâmetros. Este modelo se destaca em tarefas multimodais, suporta imagens de diferentes tamanhos e mantém desempenho de ponta em benchmarks de texto. É adequado para aplicações avançadas que requerem o processamento de dados de imagem e texto, como geração de descrições de imagens e perguntas e respostas visuais.