Alibaba Cloud a publié en open source Qwen-VL, un modèle linguistique visuel, marquant ainsi la sortie d'un autre grand modèle open source après Qwen-7B (modèle généraliste) et Qwen-7B-Chat (modèle conversationnel) en août. Qwen-VL, compatible avec le chinois et l'anglais, permet de nombreuses applications telles que les Q&R basés sur la connaissance, la génération de légendes d'images et les Q&R sur images. Comparé à d'autres modèles, Qwen-VL peut effectuer une localisation en domaine ouvert en chinois, annotant précisément les zones de détection sur les images. Développé à partir de Qwen-7B, Qwen-VL intègre un encodeur visuel pour prendre en charge les entrées d'images. Lors de tests sur plusieurs tâches de langage visuel, Qwen-VL a obtenu les meilleurs résultats parmi les modèles équivalents. Qwen-VL est disponible en open source sur des plateformes telles que ModelScope. Les modèles multimodaux représentent une direction importante du développement des grands modèles, même s'ils restent confrontés à certains défis techniques.