Dans le domaine de l'intelligence artificielle, Alibaba a de nouveau fait une annonce majeure. Récemment, Alibaba a publié en open source son dernier modèle multi-modal : Qwen2.5-VL-32B-Instruct. Ce nouveau modèle fait partie de la série Qwen2.5, qui comprend également des versions 3B, 7B et 72B. La version 32B, quant à elle, privilégie une expérience d'exécution locale conviviale tout en maintenant des performances élevées.
Qwen2.5-VL-32B, optimisé par apprentissage par renforcement, excelle à plusieurs niveaux. Premièrement, ses réponses sont plus conformes aux habitudes cognitives humaines, ce qui signifie que les utilisateurs bénéficieront d'interactions plus naturelles et fluides avec le modèle. Deuxièmement, ce modèle a considérablement amélioré ses capacités de raisonnement mathématique. Qu'il s'agisse de problèmes mathématiques complexes ou d'analyses de solides géométriques, Qwen2.5-VL-32B effectue des analyses et des raisonnements précis et clairs. De plus, la précision du modèle dans des tâches telles que l'analyse d'images, la reconnaissance de contenu et le raisonnement logique visuel s'est nettement améliorée, lui permettant de fournir des analyses plus détaillées lors du traitement de données multimodales.
Comparé à des modèles similaires, tels que Mistral-Small-3.1-24B et Gemma-3-27B-IT, Qwen2.5-VL-32B atteint les meilleures performances de sa catégorie en termes de capacités de texte pur, dépassant même la version 72B dans plusieurs tests de référence. Cette réussite témoigne de la position de leader d'Alibaba dans le domaine des technologies IA multimodales.
Par exemple, si un utilisateur montre à Qwen2.5-VL-32B une photo d'un panneau de signalisation routière et lui demande s'il est possible d'atteindre une destination située à 110 km en une heure, le modèle analysera le temps, la distance et la limitation de vitesse des camions pour parvenir progressivement à une réponse précise. Cette capacité de raisonnement complexe est impressionnante.
Actuellement, Qwen2.5-VL-32B est disponible en open source sur Hugging Face, et les utilisateurs peuvent directement expérimenter ses puissantes fonctionnalités sur la plateforme Qwen Chat. Avec le développement de l'open source, de plus en plus de développeurs et d'utilisateurs participent activement aux tests au sein de la communauté MLX, et des discussions animées ont lieu sur des plateformes sociales telles que Hacker News.
Il est clair que cette publication d'Alibaba a de nouveau suscité un vif débat au sein du secteur. Beaucoup estiment que la puissance de l'open source repousse constamment les limites et offre des possibilités infinies pour le développement futur de l'intelligence artificielle.