El equipo de modelos lingüísticos de Ant Group anunció recientemente el lanzamiento de su nuevo modelo de inferencia eficiente, Ring-mini-sparse-2.0-exp. Este modelo se basa en la arquitectura Ling2.0 y está optimizado para la decodificación de secuencias largas, utilizando una mecanismo innovador de atención dispersa.

Esta nueva arquitectura combina de manera integrada la estructura Mixture of Expert (MoE) con alta proporción de dispersión y el mecanismo de atención dispersa, con el objetivo de mejorar el rendimiento del modelo en escenarios complejos de razonamiento de secuencias largas.

image.png

El equipo indicó que, gracias a la optimización profunda entre la arquitectura y el marco de inferencia, Ring-mini-sparse-2.0-exp tiene un volumen de procesamiento casi tres veces mayor al de su predecesor Ring-mini-2.0 al manejar secuencias largas.

En varios benchmarks de razonamiento de alto nivel, el modelo sigue manteniendo un rendimiento SOTA (State of the Art), demostrando sus excelentes capacidades de procesamiento de contexto y su eficiencia en la inferencia, proporcionando así una nueva solución ligera para la comunidad de código abierto.

La arquitectura Ling2.0Sparse está principalmente diseñada para abordar dos tendencias centrales en el desarrollo futuro de los grandes modelos de lenguaje: la expansión de la longitud del contexto y la expansión en el momento de prueba. El equipo tomó prestada la idea de diseño de Mixture of Block Attention (MoBA), aplicando una atención dispersa por bloques, dividiendo las claves y valores de entrada en bloques y seleccionando los mejores k bloques en la dimensión de head para cada query.

Solo se realiza el cálculo de softmax en los bloques seleccionados, lo que reduce significativamente el costo computacional. Además, el equipo combinó el diseño de MoBA con Grouped Query Attention (GQA), permitiendo que los heads de consulta dentro del mismo grupo compartan los resultados de selección de los k bloques, reduciendo así el costo de I/O.

GitHub: https://github.com/inclusionAI/Ring-V2/tree/main/moba

Resumen clave:

🌟 El nuevo modelo Ring-mini-sparse-2.0-exp muestra un excelente desempeño en la inferencia de secuencias largas, con un aumento del volumen de procesamiento casi tres veces.

🔍 Este modelo utiliza un mecanismo innovador de atención dispersa, equilibrando eficientemente la inferencia y la capacidad de procesamiento de contexto.

📥 El modelo está disponible en múltiples plataformas como código abierto, facilitando su aplicación e investigación por parte de la comunidad.