InternVL2.5-MPO é uma série avançada de modelos de linguagem grandes multimodais, construída com base no InternVL2.5 e otimização de preferência híbrida. O modelo integra o InternViT pré-treinado incrementalmente com vários modelos de linguagem grandes pré-treinados, incluindo InternLM 2.5 e Qwen 2.5, usando projetores MLP inicializados aleatoriamente. InternVL2.5-MPO mantém a mesma arquitetura de modelo do InternVL 2.5 e seus predecessores na nova versão, seguindo o paradigma “ViT-MLP-LLM”. O modelo suporta dados de várias imagens e vídeos, e seu desempenho é aprimorado ainda mais por meio da otimização de preferência híbrida (MPO), levando a um desempenho superior em tarefas multimodais.