Am 14. Oktober morgens kündigte Ant Group offiziell den millionenparametrischen Denkmodell Ring-1T an und gab die Modellgewichte und Trainingsrezepte vollständig frei. Der Ring-1T baut auf der Vorschauversion Ring-1T-preview, die am 30. September freigegeben wurde, weiterhin auf und erweitert kontinuierlich das großflächige verifizierbare belohnungsbasierte Verstärkungslernen (RLVR). Dadurch wird die natürliche Sprachschlussfolgerungsfähigkeit des millionenparametrischen Grundmodells verstärkt und durch RLHF-Training wird die allgemeine Fähigkeit des Modells vervollkommnet. In verschiedenen Aufgabenlisten zeigt es ein ausgewogeneres Ergebnis.

Um die mathematischen und anderen komplexen Schlussfolgerungsfähigkeiten von Ring-1T weiter zu steigern, stellte das Team Bailing eine schwierigere IMO2025 (International Mathematical Olympiad) Frage. Sie integrierten Ring-1T in einen Multi-Agenten-Framework AWorld und lösten die Aufgabe mit reiner natürlicher Sprachschlussfolgerung. Die Experimente zeigten, dass Ring-1T nur einmal die Aufgaben 1, 3, 4 und 5 löste, was einem Silbermedaillen-Niveau entspricht, und somit der erste Open-Source-System war, der eine internationale Mathematik-Olympiade gewann. Bei der dritten Versuch bei IMO löste Ring-1T auch die geometrische Beweisfrage 2 nahezu perfekt. In der sechsten Frage, bei der fast alle Top-Modelle versagten, konvergierte die Antwort zu „4048“ (die richtige Antwort ist 2112), vergleichbar mit Gemini2.5Pro. Als Denkmodell zeigte Ring-1T auch eine hervorragende Allgemeinfähigkeit. Im „Human Preference Alignment“-Test Arena-Hard V2 erreichte Ring-1T mit einer Erfolgsrate von 81,59 % die Spitze unter den Open-Source-Modellen und näherte sich dem Ergebnis von GPT-5-Thinking (High) mit 82,91 %. Im Gesundheitsfragen-Test HealthBench, der strengen Bereichen gewidmet ist, erreichte Ring-1T mit dem höchsten Punkt die beste Leistung im Open-Source-Bereich.

b5dde46159e705ba03ac2e07481fb8b2.png

(Leistungsvergleich von Ring-1T mit bedeutenden Denkmodellen der Branche)

Das größte Problem beim Training des millionenparametrischen Denkmodells ist die Differenz zwischen Trainings- und Inferenzgenauigkeit, also die Unstimmigkeit zwischen Trainings- und Inferenzgenauigkeit aufgrund von Unterschieden in der Implementierungsdetails, was zu einem Trainingsabsturz führt. In dem Ring-1T-Modell verwendete Ant eine eigene „Icepop“-Algorithmen, um dieses Branchenproblem zu bewältigen. Mit einer Technik zur bidirektionalen Abschneidung mit Maske wird die Differenz zwischen Trainings- und Inferenzverteilung auf einem niedrigen Niveau gefroren, um sicherzustellen, dass langfristige Sequenzen und langfristige Trainings nicht abbrechen. Darüber hinaus entwickelte Ant auch ein leistungsstarkes Verstärkungslernsystem ASystem (darunter auch den bereits öffentlich zugänglichen leistungsstarken Verstärkungslernframework AReaL), insbesondere für Speicher-Management und Gewichtsaustausch bei Millionenparametern optimiert, um die Stabilität großer RL-Trainings auf täglicher Basis zu ermöglichen.

image.png

(Linker Bild: GRPO-Differenz wächst exponentiell mit dem Training, Icepop bleibt stabil; Rechter Bild: Maximaler Wert der GRPO-Differenz wächst deutlich mit dem Training, Icepop bleibt auf niedrigem Niveau)

Zusätzlich nutzte der Ring-1T-Modell weiterhin den Ling-2.0-Architektur-1T-Base-Modell für die Nachtrainierung. Ling-2.0 verwendete eine hochseltene MoE-Architektur, eine Expertenaktivierungsrate von 1/32, FP8-Mischpräzision und MTP, um effizientes Training und Inferenz zu ermöglichen. In der Nachtrainierungsphase verbesserte das Ant-Bailing-Team durch mehrstufiges Training (LongCoT-SFT + RLVR + RLHF) signifikant die komplexe Schlussfolgerungsfähigkeit sowie die Fähigkeit zur Anweisungsfolge und Kreativschreibung.

Laut dem Bailing-Team ist der Ring-1T-Modell der erste Versuch von Ant bei millionenparametrischen Denkmodellen. Das Ant-Bailing-Team wird in zukünftigen Versionen die Modellleistung weiter verbessern. Derzeit können Benutzer den Modell über HuggingFace und das Moba-Community herunterladen und online über Plattformen wie Ant's Treasure Box testen.

67a3d280291d5154535fc80dc4cb9803.jpg

Es wird berichtet, dass bis heute 18 Modelle des Ant-Bailing-Modells veröffentlicht wurden und ein Produktmatrix von Sprachmodellen von 16 Milliarden Parametern bis zu 1 Billion Parametern gebildet wurde. Darunter zwei Modelle mit einer Billion Parametern – das billionenparametrische allgemeine Sprachmodell Ling-1T und das billionenparametrische Denkmodell Ring-1T. Mit der Veröffentlichung der beiden billionenparametrischen Modelle begann das Bailing-Modell offiziell die Phase 2.0.