El equipo de modelos de gran escala de Ant Bai Ling anunció recientemente que ha abierto completamente el código de su nuevo modelo de pensamiento de alto rendimiento, Ring-flash-2.0. Este modelo se ha optimizado profundamente a partir de la base Ling-flash-2.0-base y marca un avance importante en el campo de la inteligencia artificial. El número total de parámetros de Ring-flash-2.0 alcanza los 10 mil millones, pero solo activa 610 millones durante cada razonamiento, esta eficiente mecanismo de activación proporciona al modelo una potente capacidad computacional y también ahorra muchos recursos.
Según la presentación del equipo, Ring-flash-2.0 ha demostrado un excelente desempeño en varios benchmarks de alta dificultad, incluyendo competencias matemáticas, generación de código y razonamiento lógico. Su rendimiento no solo supera a modelos de 4 mil millones de parámetros de la misma categoría, sino que también puede competir con modelos de código abierto de mayor tamaño (MoE) y algunos APIs de modelos de pensamiento de alto rendimiento propietarios, mostrando así su competitividad excepcional.

Para mejorar integralmente las capacidades del modelo Ring-flash-2.0, el equipo de Ant Bai Ling diseñó un proceso innovador de entrenamiento de aprendizaje por refuerzo (RL) en dos etapas. En primer lugar, mediante un SFT (fine-tuning supervisado) de Long-CoT (pensamiento en cadena de secuencias largas) ligero, el modelo Ling-flash-2.0-base puede dominar varios métodos de pensamiento. Luego, se utiliza el entrenamiento RLVR (recompensa verificable de aprendizaje por refuerzo) para estimular continuamente el potencial de razonamiento del modelo. Finalmente, se añade una etapa de retroalimentación humana en el aprendizaje por refuerzo (RLHF) para mejorar las capacidades generales del modelo.

Destaca mencionar que los pesos del modelo Ring-flash-2.0, el plan de entrenamiento de aprendizaje por refuerzo y la fórmula de datos estarán completamente disponibles como código abierto, ofreciendo recursos valiosos a desarrolladores y investigadores. Los usuarios interesados pueden obtener la información correspondiente en Hugging Face y ModelScope para comenzar a explorar este poderoso modelo.

A medida que las tecnologías de IA continúan desarrollándose, Ring-flash-2.0 sin duda abre nuevas posibilidades para las aplicaciones inteligentes futuras. Se espera que tenga una amplia aplicación en diversos campos y alcance aún mayores logros!
Ubicación del modelo:
https://huggingface.co/inclusionAI/Ring-flash-2.0
https://modelscope.cn/models/inclusionAI/Ring-flash-2.0





