Alibaba Cloud a publié en open source Qwen-VL, un modèle linguistique visuel, marquant ainsi la sortie d'un autre grand modèle open source après Qwen-7B (modèle généraliste) et Qwen-7B-Chat (modèle conversationnel) en août. Qwen-VL, compatible avec le chinois et l'anglais, permet de nombreuses applications telles que les Q&R basés sur la connaissance, la génération de légendes d'images et les Q&R sur images. Comparé à d'autres modèles, Qwen-VL peut effectuer une localisation en domaine ouvert en chinois, annotant précisément les zones de détection sur les images. Développé à partir de Qwen-7B, Qwen-VL intègre un encodeur visuel pour prendre en charge les entrées d'images. Lors de tests sur plusieurs tâches de langage visuel, Qwen-VL a obtenu les meilleurs résultats parmi les modèles équivalents. Qwen-VL est disponible en open source sur des plateformes telles que ModelScope. Les modèles multimodaux représentent une direction importante du développement des grands modèles, même s'ils restent confrontés à certains défis techniques.
Qwen-VL : le modèle linguistique visuel d'Alibaba Cloud permet désormais la reconnaissance d'images !

AI前线
Cet article provient d'AIbase Daily
Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.