Les entreprises leader dans le domaine de l'intelligence artificielle en Chine, Zhipu AI, relance à nouveau la vague d'innovation dans l'industrie. Selon les dernières informations d'AIbase, Zhipu AI a récemment ouvert publiquement sa nouvelle génération de modèle visuel général GLM-4.1V-Thinking. Ce modèle de raisonnement multimodal doté de 9 milliards de paramètres a fait des performances exceptionnelles et s'est montré capable d'appliquer à un grand nombre de scénarios. Il a non seulement battu des records lors de plusieurs évaluations officielles, mais il a également démontré une puissance comparable, voire supérieure, à celle des modèles de 72 milliards de paramètres. Voici les dernières informations rassemblées par AIbase, vous permettant de découvrir en profondeur cette technologie révolutionnaire.

image.png

Introduction du raisonnement en chaîne de pensée, amélioration significative des performances

GLM-4.1V-Thinking est une optimisation approfondie basée sur l'architecture précédente de Zhipu AI, GLM-4V, et intègre une mécanique innovante de raisonnement en chaîne de pensée (Chain-of-Thought Reasoning). Ce mécanisme a considérablement amélioré les performances du modèle dans les tâches cognitives complexes, lui permettant de traiter plus efficacement les entrées multimodales, y compris les images, les vidéos et les documents. Selon les informations d'AIbase, ce modèle a obtenu les meilleurs résultats pour des modèles de 10 milliards de paramètres dans 23 des 28 évaluations officielles (telles que MMStar, MMMU-Pro, ChartQAPro, OSWorld, etc.), dont 18 ont atteint ou surpassé les performances du modèle Qwen-2.5-VL72B qui possède plus de paramètres, démontrant ainsi une capacité de raisonnement impressionnante.

Capacités multimodales complètes, favorisant des centaines de secteurs

GLM-4.1V-Thinking prend en charge une longueur de contexte allant jusqu'à 64K et une résolution d'image de 4K, tout en étant capable de gérer les tâches complexes dans des scénarios multilingues grâce à sa capacité en chinois et en anglais. Qu'il s'agisse de la compréhension des longs vidéos, des questions-images, de la résolution de problèmes scientifiques, de la reconnaissance de texte, de l'interprétation de documents, de la localisation d'images (Grounding), des opérations de proxy GUI ou de la génération de code, ce modèle peut facilement s'en sortir. Sa nature open source réduit davantage les barrières d'accès, puisqu'une seule carte graphique 3090 suffit à l'exécuter. Une licence gratuite pour usage commercial offre aux entreprises et développeurs un espace d'application vaste. AIbase estime que cette combinaison de flexibilité et de performance élevée accélérera grandement l'implémentation de la technologie de l'IA dans les secteurs comme l'éducation, la finance ou la santé.

Stratégie open source, pilotant la compétition mondiale en IA

Zhipu AI a choisi de rendre entièrement open source GLM-4.1V-Thinking et de fournir les poids du modèle et des démonstrations via la plateforme Hugging Face, démontrant ainsi son engagement à promouvoir la diffusion de la technologie de l'IA. AIbase a noté que Zhipu AI a eu de multiples actions dans le domaine open source ces dernières années. La série de modèles GLM a été téléchargée plus de 30 millions de fois à travers le monde, devenant une composante importante de l'écosystème de l'IA en Chine. Le GLM-4.1V-Thinking ouvert publiclement offre non seulement aux développeurs un outil de raisonnement multimodal performant, mais il garantit également la flexibilité pour les applications commerciales grâce à la licence MIT, renforçant ainsi la compétitivité de Zhipu AI dans le domaine mondial de l'IA.

Confrontation directe avec les modèles de premier plan mondiaux

Dans les comparaisons de performances, GLM-4.1V-Thinking a montré des capacités impressionnantes. Les données d'évaluation combinées d'AIbase ont trouvé que ce modèle se distingue particulièrement dans plusieurs tâches complexes, notamment dans les scénarios difficiles comme les problèmes scientifiques STEM et la compréhension de longs documents, où certaines performances surpassent même celles du modèle GPT-4o d'OpenAI. Cette avancée marquée montre que Zhipu AI est désormais au sommet des leaders mondiaux dans le domaine du raisonnement multimodal, rivalisant directement avec des géants internationaux comme OpenAI et Google.

Nouvelle ère de la montée de l'IA chinoise

En tant qu'une des « quatre bêtes féroces » du domaine de l'IA en Chine, Zhipu AI, grâce à ses innovations continues et sa stratégie écologique ouverte, est en train de redéfinir l'équilibre mondial de l'IA. AIbase estime que la publication de GLM-4.1V-Thinking n'est pas seulement une preuve de la force technique de Zhipu AI, mais aussi un appel important de l'industrie chinoise de l'IA sur la scène mondiale. À l'avenir, avec plus de développeurs construisant des applications innovantes basées sur GLM-4.1V-Thinking, l'influence internationale de l'IA chinoise augmentera encore davantage.

Conclusion