InternVL 2.5 é uma série de modelos de linguagem de grande porte multimodais (MLLM) avançados. Baseado no InternVL 2.0, ele mantém sua arquitetura de modelo central, mas foi aprimorado com estratégias de treinamento e teste significativas e melhorias na qualidade dos dados. O modelo integra o InternViT, com pré-treinamento adicional, e vários modelos de linguagem de grande porte (LLMs) pré-treinados, como InternLM 2.5 e Qwen 2.5, usando projetores MLP de inicialização aleatória. O InternVL 2.5 suporta dados de múltiplas imagens e vídeos, e aprimora a capacidade do modelo de processar dados multimodais por meio de um método de treinamento de alta resolução dinâmica.