Kürzlich hat Huawei eine beeindruckende Durchbruchshandlung mit ihrer neu vorgestellten „Shengteng + PanGu Ultra MoE“-System gezeigt: Ein MoE-Großmodell mit fast einer Billion Parametern konnte in nur 2 Sekunden eine komplexe Mathematikaufgabe verstehen und beantworten. Und dies geschah ohne die Verwendung von GPU, was Huawei bei der Entwicklung eigenständiger nationaler Rechenleistung und Modelltraining zeigt.
In technischer Hinsicht gelang es Huawei-Team, die Gesamtleistung des Trainingsystems zu verbessern, indem sie intelligente Parallelisierungsstrategien und Optimierungen der Kommunikation berechneten. Dadurch wurde die Trainingsleistung der Cluster erheblich erhöht. In ihrem technischen Bericht gaben Huawei detailliert mehrere technische Innovationen auf dem CloudMatrix384-Superknoten bekannt, darunter verbesserte Kommunikationsmechanismen und Lastausgleichsstrategien. Diese Innovationen reduzierten den Kommunikationsaufwand für Experten-Parallelität bei großen MoE-Trainings nahezu auf Null und balancierten gleichzeitig die Rechenlast effizient.
Außerdem machte Huawei in Bezug auf die Steigerung der Rechenleistung einzelner Knoten bedeutende Fortschritte. Sie optimierten die Ausführung der Trainingsoperatoren und erreichten eine Verdopplung der Mikro-Batchgröße, wobei auch das Problem der Effizienz bei der Verteilung der Operatoren gelöst wurde. Diese technologische Verbesserung bedeutet, dass Huaweis System komplexere Berechnungsaufgaben effizienter mit vorhandenen Ressourcen ausführen kann.
Huaweis Serie an technologischen Innovationen hat nicht nur die Trainingsleistung von MoE-Modellen stark verbessert, sondern auch neue Möglichkeiten für die Zukunft der Trainierung und Anwendung von großflächigen KI-Modellen eröffnet.