O CogVLM2 é um modelo de diálogo pré-treinado multimodais de segunda geração desenvolvido pela equipe da Universidade Tsinghua. Apresenta melhorias significativas em vários benchmarks, suportando comprimento de conteúdo de 8K e resolução de imagem de 1344*1344. A série de modelos CogVLM2 oferece versões de código aberto em chinês e inglês, alcançando desempenho comparável a alguns modelos não abertos.