Recientemente, Huawei ha mostrado un asombroso avance a través de su nuevo sistema "Ascend + Pangu Ultra MoE": un modelo grande con casi un billón de parámetros puede entender y responder a un problema de matemáticas avanzadas en solo 2 segundos. Y todo esto se logró sin utilizar GPUs, demostrando la fuerte capacidad de Huawei en términos de potencia informática nacional autónoma y entrenamiento de modelos.

Desde el punto de vista técnico, el equipo de Huawei mejoró significativamente el rendimiento del sistema de entrenamiento al elegir inteligentemente estrategias de paralelismo y optimizar las comunicaciones computacionales, lo que aumentó considerablemente la eficiencia del clúster. En su informe técnico, Huawei detalló varias innovaciones realizadas en un super nodo CloudMatrix384, incluida una mejora en el mecanismo de comunicación y estrategias de equilibrio de carga. Estas innovaciones redujeron casi a cero los costos de comunicación entre expertos en el entrenamiento masivo de MoE y equilibraron eficazmente la carga de cómputo.

imagen.png

Además, Huawei logró resultados destacados en mejorar la capacidad de cómputo por nodo. Optimizando la ejecución de operadores de entrenamiento, lograron duplicar el tamaño del micro-lote y resolver el problema de la eficiencia en la distribución de operadores. Este progreso técnico significa que el sistema de Huawei puede aprovechar más eficientemente los recursos existentes cuando enfrenta tareas de cómputo complejas.

Estas innovaciones técnicas de Huawei no solo mejoraron significativamente la eficiencia del entrenamiento de modelos MoE, sino que también abrieron nuevas posibilidades para el entrenamiento y la aplicación de modelos de IA a gran escala en el futuro.