Recentemente, a DeepSeek publicou um artigo técnico sobre as melhores práticas de treinamento de grandes modelos, causando ampla repercussão na indústria. O artigo detalha as quebras de tecnologia da DeepSeek no desenvolvimento de grandes modelos, abrangendo software, hardware e soluções de otimização híbrida, exibindo uma impressionante profundidade de engenharia.

No nível do **software**, o artigo apresenta com detalhes o mecanismo de atenção potencial multi-cabeça (MLA), que reduz significativamente a ocupação de memória durante o processo de inferência; o treinamento com precisão mista FP8 melhora a eficiência por meio de cálculos de menor precisão, mantendo a estabilidade numérica; a biblioteca de comunicação DeepEP otimiza a comunicação entre especialistas (EP), suportando operações de baixa precisão FP8, acelerando o treinamento e inferência de modelos MoE; o formato LogFMT de ponto flutuante logarítmico uniformiza a distribuição das ativações, otimizando ainda mais a eficiência computacional.

QQ20250521-100157.png

No aspecto do **hardware**, a DeepSeek utiliza a topologia de rede Multi-Rail Fat Tree, combinada com switches Ethernet RoCE, melhorando consideravelmente o desempenho da rede em clusters e reduzindo os custos de comunicação, garantindo a eficiência no treinamento em larga escala.

A **otimização híbrida** inclui IBGDA (agregação de dados em grupo baseada em InfiniBand), que reduz os gargalos no treinamento MoE em múltiplos nós por meio de núcleos de comunicação eficientes; o 3FS (Fire-Flyer File System) aproveita ao máximo a largura de banda de SSDs modernos e redes RDMA, otimizando a eficiência de acesso aos dados, oferecendo suporte robusto ao cálculo de alto desempenho para IA.

A DeepSeek superou os limites de capacidade de memória, eficiência computacional e largura de banda de interconexão através do design colaborativo de algoritmos, frameworks e hardware, reduzindo significativamente os custos de treinamento. Seu modelo V3 foi treinado em 2048 GPUs NVIDIA H800, utilizando apenas 2.788.000 horas de GPU, rivalizando com modelos fechados de ponta, demonstrando o enorme potencial do AI open-source.

O artigo não apenas destaca a liderança tecnológica da DeepSeek, mas também fornece valiosas referências para a comunidade global de IA, promovendo a eficiência e acessibilidade do treinamento de grandes modelos. O espírito de colaboração aberta e a força técnica da DeepSeek estão impulsionando a tecnologia de IA a novos patamares.

Link do artigo: https://www.alphaxiv.org/abs/2505.09343