InternVL2.5-MPO est une série de modèles linguistiques de grande taille multimodaux basée sur InternVL2.5 et l'optimisation des préférences mixtes (MPO). Il excelle dans les tâches multimodales en intégrant InternViT, nouvellement entraîné de manière incrémentale, avec plusieurs grands modèles linguistiques (LLM) pré-entraînés, tels qu'InternLM 2.5 et Qwen 2.5, en utilisant un projecteur MLP initialisé aléatoirement. Cette série de modèles a été entraînée sur l'ensemble de données MMPR (Multimodal Preference Reasoning), comprenant environ 3 millions d'échantillons. Grâce à un processus de construction de données efficace et à la technique d'optimisation des préférences mixtes, les capacités de raisonnement et la qualité des réponses du modèle ont été améliorées.