MM1.5 est une série de grands modèles linguistiques multimodaux (MLLM) conçus pour améliorer la compréhension d'images enrichies de texte, la désignation et l'ancrage visuels, ainsi que les capacités de raisonnement multi-images. Ce modèle, basé sur l'architecture MM1, utilise une méthode d'entraînement centrée sur les données et explore systématiquement l'impact de différents mélanges de données tout au long du cycle de vie de l'entraînement du modèle. Les modèles MM1.5 comportent de 1 à 30 milliards de paramètres, incluant des variantes denses et des variantes à experts mixtes (MoE). Des études empiriques et des études d'ablation approfondies fournissent des informations détaillées sur le processus d'entraînement et les décisions prises, offrant ainsi des orientations précieuses pour les futures recherches et développements de MLLM.