Yuan2.0-M32-hf-int8 ist ein Mixed-Expert (MoE)-Sprachmodell mit 32 Experten, von denen stets nur 2 aktiv sind. Durch ein neuartiges Routing-Netzwerk – den Aufmerksamkeitsrouter – wird die Effizienz der Expertenauswahl gesteigert, was zu einer Genauigkeitssteigerung von 3,8 % im Vergleich zu Modellen mit herkömmlichen Routing-Netzwerken führt. Yuan2.0-M32 wurde von Grund auf neu trainiert und verwendet 200 Milliarden Token. Der Trainingsaufwand beträgt nur 9,25 % des Aufwands eines dichten Modells mit vergleichbarer Parametergröße. Das Modell zeigt Wettbewerbsfähigkeit in den Bereichen Programmierung, Mathematik und verschiedenen Fachgebieten. Es verwendet lediglich 3,7 Milliarden aktive Parameter (ein kleiner Teil der insgesamt 4 Milliarden Parameter) und benötigt pro Token nur 7,4 GFLOPS – nur 1/19 des Bedarfs von Llama3-70B. Yuan2.0-M32 übertrifft Llama3-70B in den Benchmark-Tests MATH und ARC-Challenge mit Genauigkeiten von 55,9 % bzw. 95,8 %.