Qwen2-VL est un modèle linguistique visuel de nouvelle génération basé sur Qwen2. Il offre une prise en charge multilingue et de puissantes capacités de compréhension visuelle, permettant de traiter des images de différentes résolutions et proportions, de comprendre de longues vidéos et de s'intégrer à des appareils tels que des téléphones et des robots pour des opérations automatiques. Il a obtenu des performances de pointe au niveau mondial dans plusieurs tests de référence de compréhension visuelle, notamment une nette supériorité dans la compréhension de documents.