InternVL2.5-MPO es una serie de modelos de lenguaje grandes multimodales basados en InternVL2.5 y optimización de preferencias mixtas (MPO). Destaca en tareas multimodales mediante la integración de InternViT, recientemente entrenado incrementalmente, con varios modelos de lenguaje grandes (LLM) preentrenados, como InternLM 2.5 y Qwen 2.5, utilizando un proyector MLP con inicialización aleatoria. Esta serie de modelos se ha entrenado en el conjunto de datos MMPR de preferencias de inferencia multimodal, que contiene aproximadamente 3 millones de muestras. Mediante un proceso de construcción de datos eficiente y técnicas de optimización de preferencias mixtas, se mejora la capacidad de inferencia y la calidad de las respuestas del modelo.