El 14 de octubre, el Grupo Ant (Ant Group) lanzó oficialmente el modelo de razonamiento con 1 billón de parámetros Ring-1T y abrió completamente los pesos del modelo y la fórmula de entrenamiento. Ring-1T, basado en la versión preliminar Ring-1T-preview lanzada el 30 de septiembre, continúa expandiendo el entrenamiento de aprendizaje por refuerzo verificable a gran escala (RLVR), mejorando aún más la capacidad de razonamiento lingüístico natural del modelo base de 1 billón de parámetros. Además, mediante el entrenamiento RLHF se perfecciona la capacidad general del modelo, mostrando un rendimiento más equilibrado en diversas listas de tareas.

Para seguir estimulando las capacidades de razonamiento matemático y otras complejidades de Ring-1T, el equipo Bailing desafió problemas más difíciles de la Olimpiada Matemática Internacional (IMO2025). Conectaron Ring-1T al marco de múltiples agentes AWorld y resolvieron los problemas usando exclusivamente razonamiento lingüístico natural. Los resultados experimentales muestran que Ring-1T resolvió en una sola prueba las preguntas 1, 3, 4 y 5, alcanzando un nivel de medalla de plata en la IMO, convirtiéndose así en el primer sistema de código abierto capaz de ganar un premio en la Olimpiada Matemática Internacional. En su tercera tentativa para resolver la IMO, Ring-1T proporcionó un proceso de prueba cercano a la calificación máxima para la pregunta 2, una demostración geométrica, y en la sexta pregunta, donde casi todos los modelos de vanguardia fracasaron, llegó a la respuesta "4048" (la respuesta correcta es 2112), igualando a Gemini2.5Pro. Como un modelo de razonamiento, Ring-1T también demostró una excelente capacidad general. En la prueba Arena-Hard V2 de preferencias humanas, Ring-1T obtuvo un 81,59% de éxito, liderando a los modelos de código abierto, acercándose al 82,91% logrado por GPT-5-Thinking(High). En la evaluación HealthBench, orientada a áreas estrictas, Ring-1T obtuvo la puntuación más alta, logrando el mejor resultado en el ámbito de código abierto.

b5dde46159e705ba03ac2e07481fb8b2.png

(Evaluación comparativa del rendimiento de Ring-1T con modelos de pensamiento destacados de la industria)

El mayor desafío en el entrenamiento del modelo de pensamiento con 1 billón de parámetros es la diferencia entre la precisión de entrenamiento y de inferencia, es decir, la inconsistencia entre la precisión de entrenamiento e inferencia causada por diferencias en los detalles de implementación, lo que lleva al colapso del entrenamiento. En el modelo Ring-1T, Ant utilizó el algoritmo "icepop" desarrollado internamente para enfrentar este problema de la industria. Esto implica utilizar una técnica de truncamiento bidireccional con máscara para congelar la diferencia entre distribuciones de entrenamiento e inferencia en un nivel bajo, asegurando que el entrenamiento a largo plazo y de largo período no se rompa. Además, para el entrenamiento de aprendizaje por refuerzo en modelos con 1 billón de parámetros, Ant desarrolló un sistema de aprendizaje por refuerzo de alto rendimiento ASystem (que incluye el marco de aprendizaje por refuerzo de alto rendimiento AReaL ya abierto), optimizando cuidadosamente la gestión de memoria de video y el intercambio de pesos de entrenamiento e inferencia para modelos de 1 billón de parámetros, logrando la recuperación de fragmentos de memoria de video en segundos en una sola máquina y el intercambio sin redundancia de pesos, permitiendo que el entrenamiento a gran escala de RL se ejecute establemente como parte del día a día.

image.png

(Imagen izquierda: La diferencia entre entrenamiento e inferencia aumenta exponencialmente con el entrenamiento, icepop es más estable; imagen derecha: el valor máximo de la diferencia entre entrenamiento e inferencia, GRPO aumenta significativamente con el entrenamiento, mientras que icepop mantiene un nivel bajo)

Además, el modelo Ring-1T lanzado esta vez sigue utilizando el modelo base Ling2.0 de 1T para el post-entrenamiento. Ling2.0 utiliza arquitecturas MoE altamente dispersas, una proporción de activación de expertos de 1/32, precisión mixta FP8 y muchas otras características para lograr un entrenamiento y razonamiento eficiente. En la etapa de post-entrenamiento, el equipo Bailing de Ant mejoró significativamente la capacidad de razonamiento complejo del modelo, así como sus habilidades generales de seguimiento de instrucciones y escritura creativa, mediante un entrenamiento multietapa LongCoT-SFT + RLVR + RLHF.

Según reveló el equipo Bailing, Ring-1T es su primer intento en modelos de pensamiento con 1 billón de parámetros. El equipo Bailing de Ant continuará mejorando el rendimiento del modelo en versiones futuras. Actualmente, los usuarios pueden descargar el modelo a través de HuggingFace y la comunidad Moba, y experimentarlo en línea a través de plataformas como la caja de Ant.

67a3d280291d5154535fc80dc4cb9803.jpg