Le département d'intelligence artificielle d'Alibaba a officiellement lancé aujourd'hui une version compacte de la série de modèles linguistiques visuels Qwen3-VL, proposant des variantes avec 4 milliards et 8 milliards de paramètres. Cette initiative marque un grand progrès vers l'application plus large des technologies avancées en intelligence artificielle multimodale sur les appareils aux bords et dans les environnements à ressources limités.
Progrès considérables, petits modèles à la hauteur des géants
Les modèles 4B et 8B présentés cette fois-ci sont disponibles en versions Instruct et Thinking, et ont été optimisés pour des capacités multimodales essentielles telles que le raisonnement STEM, les questions-réponses visuelles (VQA), la reconnaissance optique de caractères (OCR), la compréhension vidéo et les tâches d'agent.
Selon les résultats des tests standardisés publiés, ces petits modèles se distinguent dans plusieurs catégories, surpassant même des concurrents comme Gemini2.5Flash Lite et GPT-5Nano. Plus remarquable encore, leur performance est capable de rivaliser avec le modèle Qwen2.5-VL-72B plus volumineux publié il y a seulement six mois, démontrant une efficacité extrême en termes de paramètres.
Optimisation des ressources, promotion de la démocratisation de l'IA
La principale caractéristique du nouveau modèle réside dans une utilisation significativement réduite de la VRAM, ce qui permet de le faire fonctionner directement sur des matériels de consommation tels que les ordinateurs portables et les smartphones. Pour améliorer davantage l'efficacité, Alibaba propose également une version quantifiée FP8, qui réduit encore davantage la consommation de ressources sans compromettre les capacités fondamentales. Comme l'a dit un membre de l'équipe Qwen impliqué dans le développement : « Les petits modèles VL sont adaptés au déploiement et ont un impact important dans les domaines des téléphones portables et des robots. »
Itérations rapides, partage open source
Le lancement de ce modèle compact poursuit la feuille de route initiée en septembre par la série Qwen3-VL (le modèle phare compte 235 milliards de paramètres). Précédemment, Alibaba avait déjà lancé la variante 30B-A3B à la fin du mois d'octobre, obtenant des résultats comparables à ceux de GPT-5Mini et Claude4Sonnet avec seulement 30 milliards de paramètres actifs. Cette itération rapide est perçue comme un signe fort de la volonté d'Alibaba de promouvoir la démocratisation de l'intelligence artificielle performante, notamment pour les systèmes incarnés comme les robots.
Adresse :
https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe
https://github.com/QwenLM/Qwen3-VL/tree/main/cookbooks