El grupo Ant Group anunció recientemente que ha hecho público su modelo de gran tamaño más reciente, el modelo Ling-1T, que tiene hasta 1 billón de parámetros y es el modelo base más grande conocido que se entrena con un modo de baja precisión FP8. El Ling-1T fue desarrollado por el equipo interno "Bailing" de Ant Group, lo que marca otro avance en la tecnología de inteligencia artificial.

image.png

Según la presentación del equipo, el Ling-1T pertenece a la familia de modelos Ling2.0, que se divide en tres series: la serie Ling, la serie Ring y la serie Ming. La serie Ling se enfoca en tareas generales, con velocidad y eficiencia como núcleo, mientras que la serie Ring se centra en el pensamiento profundo y el razonamiento complejo, y la serie Ming es un modelo multimodal que puede manejar tipos de información más diversos.

El Ling-1T tiene 1 billón de parámetros, pero solo alrededor de 50 mil millones de parámetros se activan para cada token, lo que reduce enormemente los costos computacionales. Para respaldar este modelo tan grande, el equipo de Ant desarrolló la "Ley de Escalado Ling", resumiendo la relación entre la eficiencia computacional y la proporción de expertos activados después de experimentar con más de 300 modelos. Además, crearon un programador de tasa de aprendizaje llamado WSM, que puede ajustar automáticamente las estrategias de aprendizaje durante el entrenamiento para garantizar que el modelo se entrene de manera estable y eficiente.

El proceso de entrenamiento del Ling-1T se divide en tres etapas: preentrenamiento, entrenamiento intermedio y postentrenamiento. En la etapa de preentrenamiento, el modelo se expuso a más de 20 billones de tokens de datos, incluyendo una gran cantidad de material de lenguaje intensivo en razonamiento. La etapa de entrenamiento intermedio se centra en fortalecer la capacidad de razonamiento del modelo, y la etapa de postentrenamiento utiliza la tecnología "cadena de pensamiento evolutiva" para iterarse a sí mismo y mejorar la precisión del razonamiento.

En comparación con otros modelos principales, el Ling-1T mostró un excelente rendimiento en varios tests, especialmente en habilidades de razonamiento matemático y generación de código, demostrando su desempeño sobresaliente. En pruebas de la comunidad, el Ling-1T también destacó en tareas complejas, como simular fenómenos físicos y la evolución del universo.

Aunque el Ling-1T muestra capacidades poderosas, aún existen algunas limitaciones, como el alto costo al procesar contextos muy largos. El equipo de Ant ya ha indicado que está investigando una nueva arquitectura de atención híbrida para resolver este problema.

Dirección de apertura:  

HuggingFace:https://huggingface.co/inclusionAI/Ling-1T  

GitHub:https://github.com/inclusionAI/Ling-V2  

Resaltan:  

🔍 El Ling-1T es el modelo de 1 billón de parámetros más grande conocido, entrenado con un modo de baja precisión FP8.  

🚀 Este modelo supera a varios modelos principales en razonamiento matemático y generación de código, mostrando un excelente rendimiento.  

⚙️ El equipo de Ant está investigando una nueva arquitectura para resolver el problema de costo en el procesamiento de contextos muy largos del Ling-1T.