Dans le domaine en rapide évolution des modèles linguistiques, les chercheurs et les organisations sont confrontés à de nombreux défis. Ces défis incluent l'amélioration des capacités de raisonnement, la fourniture d'un support multilingue robuste et la gestion efficace de tâches ouvertes complexes. Bien que les modèles plus petits soient généralement plus accessibles et moins coûteux, leurs performances sont souvent inférieures à celles des modèles plus grands. Par conséquent, le développement de modèles de taille moyenne pour trouver un équilibre efficace entre l'efficacité de calcul et de solides capacités de raisonnement et de suivi d'instructions est devenu une tendance actuelle.
Récemment, l'Université Tsinghua a publié GLM4, et plus particulièrement sa variante GLM-Z1-32B-0414, qui répond efficacement à ces défis. GLM4 a été entraîné sur un vaste ensemble de données contenant 15 billions de jetons, visant à fournir des capacités multilingues fiables et introduisant une stratégie de raisonnement innovante appelée « mode de pensée ».
Cette publication place GLM4 aux côtés d'autres modèles renommés tels que DeepSeek Distill, QwQ et O1-mini, et il est distribué sous la licence MIT très appréciée. Il est important de noter que, malgré ses 3,2 milliards de paramètres, GLM4 affiche des performances dans les tests de référence de raisonnement comparables à celles de modèles beaucoup plus grands, tels que GPT-4o et DeepSeek-V3, qui comptent jusqu'à 671 milliards de paramètres.
D'un point de vue technique, GLM-Z1-32B-0414 utilise des données d'entraînement de haute qualité, y compris des tâches de raisonnement générées de manière synthétique, pour améliorer ses capacités d'analyse. Le modèle intègre des techniques de pointe telles que l'échantillonnage par rejet et l'apprentissage par renforcement (RL) pour améliorer ses performances dans les tâches basées sur des agents, le codage, les appels de fonctions et les tâches de questions-réponses pilotées par la recherche.
De plus, sa variante « modèle de raisonnement profond » est optimisée spécifiquement pour les tâches complexes de mathématiques, de logique et de codage grâce à la combinaison d'une méthode de démarrage à froid et d'un entraînement RL prolongé. Un mécanisme de rétroaction de classement par paires a également été utilisé pendant l'entraînement pour améliorer les performances globales de raisonnement du modèle.
Une variante avancée, GLM-Z1-Rumination-32B-0414, introduit une nouvelle méthode appelée « réflexion », permettant au modèle de réaliser un raisonnement réflexif plus long pour traiter des problèmes ouverts et complexes tels que l'analyse de villes pilotée par l'IA. Cette variante combine des outils de recherche avancés et un apprentissage par renforcement multi-objectifs, améliorant considérablement son utilité dans les tâches nécessitant des recherches approfondies et les scénarios de recherche complexes. Pour répondre à différents besoins, la version GLM-Z1-9B-0414, avec ses 9 milliards de paramètres, présente de solides capacités de raisonnement mathématique et général, démontrant l'utilité des modèles de plus petite taille.
Les données de performance des évaluations de référence soulignent les avantages de la série GLM4. GLM-4-32B-0414 en particulier affiche de solides performances dans plusieurs tests de référence, par rapport à des modèles tels que GPT-4o, DeepSeek-V3 et Qwen2.5-Max. Sur le benchmark de suivi d'instructions IFEval, GLM4 a obtenu un score élevé de 87,6. Sur TAU-Bench, un benchmark d'automatisation des tâches dans des domaines tels que la vente au détail (68,7) et l'aérospatiale (51,2), GLM4 a également obtenu de bons résultats. Dans les tâches de questions-réponses améliorées par la recherche évaluées par SimpleQA, le modèle a enregistré un score élevé de 88,1.
De plus, GLM4 a obtenu un score global de 69,6 pour les tâches d'appel de fonctions dans le benchmark BFCL-v3, pratiquement au même niveau que GPT-4o. Dans les scénarios de correction de code réel testés via le framework Moatless, GLM4 a atteint un taux de réussite de 33,8 %, soulignant sa valeur pratique.
GLM4 présente le potentiel d'être une série de modèles linguistiques efficaces, comblant avec succès le fossé de performance entre les modèles plus petits et accessibles et les modèles plus grands traditionnels. La série GLM-Z1, en particulier la variante 32B, illustre cette approche équilibrée en offrant des capacités de raisonnement puissantes tout en maintenant une économie de calcul. Grâce à sa licence MIT permissive, GLM4 est positionné comme un outil important pour les solutions d'IA hautes performances dans la recherche et les applications d'entreprise, sans les énormes coûts de calcul associés aux modèles traditionnels plus grands.
huggingface:https://huggingface.co/THUDM/GLM-Z1-32B-0414
Points clés :
- 🌍 GLM4 est un modèle linguistique de 3,2 milliards de paramètres publié par l'Université Tsinghua, doté de capacités multilingues et de raisonnement puissantes.
- 📊 Ce modèle a obtenu d'excellents résultats dans plusieurs tests de référence, notamment dans les domaines du suivi d'instructions et de l'automatisation des tâches, démontrant des performances comparables à celles de modèles plus grands.
- 🚀 Grâce à sa licence MIT, GLM4 rend les solutions d'IA hautes performances plus accessibles, adaptées à la recherche et aux applications d'entreprise.