Recentemente, a Huawei apresentou uma impressionante quebra de barreiras com o lançamento do sistema "Ascend + Pangu Ultra MoE": um modelo grande de MoE com quase um trilhão de parâmetros foi capaz de entender e responder a uma questão de matemática avançada em apenas 2 segundos. Tudo isso foi alcançado sem o uso de GPUs, demonstrando o poderoso controle próprio da Huawei em termos de capacidade computacional nacional e treinamento de modelos.
No nível tecnológico, a equipe da Huawei melhorou significativamente o desempenho geral do sistema de treinamento, aumentando a eficiência da comunicação computacional por meio de estratégias inteligentes de paralelismo e otimização. No relatório técnico, a Huawei detalhou várias inovações realizadas no super nó CloudMatrix384, incluindo melhorias no mecanismo de comunicação e estratégias de balanceamento de carga. Essas inovações reduziram quase a zero os custos de comunicação de especialistas na treinamento em larga escala de MoE, ao mesmo tempo em que equilibraram eficientemente a carga de cálculo.

Além disso, a Huawei alcançou resultados significativos na melhoria da capacidade computacional individual dos nós. Através da otimização da execução dos operadores de treinamento, eles conseguiram dobrar o tamanho do lote microprocessado, enquanto resolviam problemas de eficiência na distribuição de operadores. Esses avanços técnicos significam que o sistema da Huawei pode utilizar mais eficientemente os recursos disponíveis quando enfrenta tarefas de cálculo complexas.
A série de inovações técnicas da Huawei não só elevou significativamente a eficiência do treinamento de modelos MoE, mas também abriu novas possibilidades para o treinamento e aplicação de grandes modelos de IA no futuro.