Le groupe Qwen de Alibaba a récemment lancé deux modèles légers de la série Qwen3-VL - les versions de 4 milliards et 8 milliards de paramètres. La série Qwen3-VL a fait ses débuts le mois dernier et est la famille de modèles multimédias les plus puissants jamais développés par Qwen. Les nouvelles versions à petit nombre de paramètres ont été ajoutées pour réduire les barrières à l'implémentation tout en maintenant des performances solides.

Les nouveaux modèles proposent deux tailles de paramètres : 4 milliards et 8 milliards. Chaque taille est disponible en deux versions : Instruct (suivi d'instructions) et Thinking (raisonnement en chaîne). Cela offre aux développeurs un espace de choix plus flexible. En termes de fonctionnalités, ces deux modèles réduisent significativement leur volume tout en conservant toutes leurs capacités.

Sur le plan technique, le nouveau modèle a atteint trois objectifs principaux. Premièrement, il réduit considérablement les exigences en ressources matérielles. La réduction de la taille des paramètres entraîne une diminution notable de la consommation de mémoire vidéo, permettant aux développeurs de déployer et d'exécuter les modèles sur davantage de types d'appareils grand public et de périphériques aux bords. Deuxièmement, malgré la réduction importante de la taille du modèle, il hérite pleinement de toutes les capacités fondamentales de la série Qwen3-VL, y compris la compréhension multimédia, le traitement de textes longs et les modules de raisonnement complexes.

image.png

En termes de performance, ces deux modèles légers ont montré une supériorité sur les concurrents de taille similaire dans plusieurs tests officiels. Dans des scénarios tels que les questions-réponses dans les disciplines STEM, la question-réponse visuelle (VQA), la reconnaissance optique de caractères (OCR), la compréhension vidéo et les tâches d'Agent, les modèles de 4 et 8 milliards de paramètres ont non seulement surpassé des modèles légers similaires comme Google Gemini2.5Flash Lite et OpenAI GPT-5Nano, mais ils peuvent même approcher le niveau des modèles phares Qwen2.5-VL-72B à 72 milliards de paramètres publiés il y a six mois.

Ce lancement marque un autre progrès dans la tendance à la miniaturisation des grands modèles. Grâce aux technologies de compression et d'optimisation des modèles, l'équipe de développement a réussi à réduire significativement le nombre de paramètres et le coût de calcul tout en préservant l'intégralité des capacités. Cela ouvre la voie à l'utilisation des modèles multimédias dans des scénarios avec des ressources limitées, tels que les appareils mobiles et les dispositifs IoT. Pour les utilisateurs professionnels qui souhaitent déployer localement ou sont sensibles aux coûts de raisonnement, ces deux nouveaux modèles offrent une solution plus économique.

Adresse du modèle : https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe