Yuan2.0-M32 es un modelo de lenguaje de expertos mixtos (MoE) con 32 expertos, de los cuales 2 están activos. Se presenta una nueva red de enrutamiento: enrutamiento de atención, para una selección de expertos más eficiente, mejorando la precisión en un 3.8%. Este modelo se entrenó desde cero utilizando 2000B tokens, con un coste computacional de entrenamiento que representa solo el 9.25% del requerido por un modelo denso de igual tamaño de parámetros. Demuestra una competitividad en codificación, matemáticas y diversas áreas profesionales, utilizando solo 3.7B parámetros activos, con un coste computacional de avance por token de solo 7.4 GFLOPS, apenas 1/19 de lo requerido por Llama3-70B. Supera a Llama3-70B en los benchmarks MATH y ARC-Challenge, alcanzando tasas de precisión del 55.9% y 95.8%, respectivamente.