Le 14 octobre à minuit, Ant Group a officiellement lancé le modèle de réflexion Ring-1T avec un milliard de paramètres et a rendu entièrement open source les poids du modèle et les recettes d'entraînement. Le Ring-1T s'appuie sur la version bêta publiée le 30 septembre, Ring-1T-preview, en continuant à développer l'apprentissage par renforcement vérifiable à grande échelle (RLVR), améliorant ainsi davantage les capacités de raisonnement en langage naturel du modèle de base de milliards de paramètres. En utilisant l'entraînement RLHF, il a perfectionné les capacités générales du modèle, offrant des performances plus équilibrées sur divers classements de tâches.
Pour continuer à stimuler les capacités de raisonnement mathématique complexes du Ring-1T, l'équipe Bailing a relevé le défi de problèmes plus difficiles de l'IMO2025 (Olympiades internationales de mathématiques), en connectant le Ring-1T à un cadre multi-intelligences AWorld, en utilisant uniquement le raisonnement en langage naturel pour résoudre les problèmes. Les résultats expérimentaux montrent que le Ring-1T a résolu en une seule tentative les questions 1, 3, 4 et 5, ce qui correspond au niveau d'une médaille d'argent aux Olympiades internationales de mathématiques, devenant ainsi le premier système open source capable de remporter une médaille aux Olympiades internationales de mathématiques. Lors de sa troisième tentative pour l'IMO, le Ring-1T a fourni un processus de preuve proche de la note maximale pour la question 2 de géométrie. Dans la sixième question, où les grands modèles de pointe ont presque tous échoué, le Ring-1T a abouti à la réponse "4048" (la bonne réponse est 2112), similaire à celle de Gemini2.5Pro. En tant que modèle de réflexion, le Ring-1T a également démontré une excellente capacité générale. Sur le test Arena-Hard V2, le Ring-1T se classe en tête des modèles open source avec un taux de réussite de 81,59 %, approchant le résultat de GPT-5-Thinking(High) à 82,91 %. Sur le test HealthBench, qui porte sur les questions médicales rigoureuses, le Ring-1T obtient le meilleur score dans le domaine open source.
(Évaluation comparative des performances du Ring-1T avec des modèles de réflexion représentatifs du secteur)
Le plus grand défi dans l'entraînement du modèle de réflexion Ring-1T à milliards de paramètres est la différence entre la précision d'entraînement et de prédiction, c'est-à-dire l'incohérence entre la précision d'entraînement et de prédiction causée par des différences dans les détails d'implémentation, entraînant ainsi une panne pendant l'entraînement. Dans le modèle Ring-1T, Ant a adopté un algorithme breveté appelé « icepop » pour répondre à ce problème industriel. Cet algorithme utilise une technique de troncature bidirectionnelle avec masque pour maintenir la différence entre l'entraînement et la prédiction à un faible niveau, assurant ainsi un entraînement longue séquence et longue période sans défaillance. De plus, pour l'entraînement par renforcement des modèles à milliards de paramètres, Ant a développé un système d'entraînement par renforcement performant ASystem (qui inclut le cadre d'entraînement par renforcement performant AReaL déjà ouvert), optimisant précisément la gestion de la mémoire GPU et l'échange des poids d'entraînement et de prédiction pour les modèles à milliards de paramètres, permettant ainsi un recyclage de la mémoire GPU en quelques secondes et un échange sans redondance des poids, stabilisant ainsi l'entraînement en RL à grande échelle comme une routine quotidienne.
(À gauche : La différence GRPO entre l'entraînement et la prédiction augmente exponentiellement avec l'entraînement, tandis que icepop reste stable ; À droite : Le maximum de la différence entre l'entraînement et la prédiction, GRPO augmente nettement avec l'entraînement, tandis que icepop reste à un faible niveau)
En outre, le modèle Ring-1T publié cette fois continue d'utiliser le modèle base Ling2.0 à 1T pour l'entraînement postérieur. Ling2.0 intègre plusieurs caractéristiques telles qu'une architecture MoE fortement creuse, un ratio d'activation d'expert de 1/32, une précision mixte FP8 et MTP, permettant un entraînement et une prédiction efficaces. Pendant la phase d'entraînement postérieur, l'équipe Bailing d'Ant a amélioré significativement les capacités de raisonnement complexe ainsi que les capacités générales telles que le suivi d'instructions et la rédaction créative grâce à un entraînement multistage comprenant LongCoT-SFT + RLVR + RLHF.
Selon l'équipe Bailing, le modèle Ring-1T est la première tentative d'Ant dans le domaine des modèles de réflexion à milliards de paramètres. L'équipe Bailing d'Ant continuera à améliorer les performances du modèle dans les versions ultérieures. Actuellement, les utilisateurs peuvent télécharger le modèle via HuggingFace et le site communautaire Moba, et expérimenter en ligne via des plateformes comme la boîte à outils d'Ant.