Moonlight
Moonlight es un modelo de experto mixto (MoE) de 16B parámetros, entrenado con el optimizador Muon, que ofrece un rendimiento excepcional.
Producto ComúnProductividadProcesamiento del lenguaje naturalOptimización de modelos
Moonlight es un modelo de experto mixto (MoE) de 16B parámetros entrenado con el optimizador Muon, que destaca en el entrenamiento a gran escala. Al añadir la descomposición de peso y ajustar la proporción de actualización de parámetros, se ha mejorado significativamente la eficiencia y estabilidad del entrenamiento. Este modelo supera a los modelos existentes en varias pruebas de referencia, reduciendo drásticamente la cantidad de cómputo necesaria para el entrenamiento. La implementación de código abierto y el modelo preentrenado de Moonlight ofrecen a investigadores y desarrolladores herramientas potentes que soportan diversas tareas de procesamiento del lenguaje natural, como la generación de texto y la generación de código.
Moonlight Situación del tráfico más reciente
Total de visitas mensuales
492133528
Tasa de rebote
36.20%
Páginas promedio por visita
6.1
Duración promedio de la visita
00:06:33