Recentemente, a equipe da DeepSeek publicou um artigo técnico sobre seu novo modelo, o DeepSeek-V3, no qual abordam os "problemas de expansão" no contexto do treinamento de grandes modelos de inteligência artificial e apresentam reflexões sobre sua arquitetura de hardware. Este documento de 14 páginas não apenas resume as experiências e lições aprendidas pela DeepSeek durante o desenvolvimento do projeto V3, mas também oferece insights profundos sobre futuros designs de hardware. O destaque é que o CEO da DeepSeek, Liang Wenfeng, também participou na elaboração do documento.

imagem.png

O endereço de publicação do artigo é: https://arxiv.org/pdf/2505.09343

Este estudo demonstra que a rápida expansão de grandes modelos de linguagem (LLMs) revela as limitações das arquiteturas de hardware existentes, como capacidade de armazenamento, poder computacional e largura de banda de comunicação entre processadores. O DeepSeek-V3 foi treinado em um cluster com 2.048 GPUs NVIDIA H800 e superou essas restrições por meio de um design eficiente que se adaptava conscientemente à arquitetura de hardware, resultando em treinamento e inferência mais econômicos.

imagem.png

No artigo, várias características-chave são apresentadas. Primeiro, o DeepSeek-V3 utiliza a avançada arquitetura DeepSeekMoE e a tecnologia Multi-Head Potential Attention (MLA), aumentando significativamente a eficiência de armazenamento. A tecnologia MLA reduz a demanda de memória comprimindo o cache de chaves e valores, permitindo que cada token use apenas 70 KB de memória, muito menos em comparação com outros modelos.

Segundo, a DeepSeek também otimizou a relação custo-benefício. Com sua arquitetura de especialistas mistos (MoE), o DeepSeek-V3 conseguiu reduzir drasticamente o número de parâmetros ativos, reduzindo os custos de treinamento em comparação com modelos tradicionais densos por vários ordens de magnitude. Além disso, a velocidade de inferência foi melhorada ao implementar uma arquitetura de sobreposição de microlotes duplos, maximizando a capacidade de processamento e otimizando o uso dos recursos da GPU.

A DeepSeek apresentou considerações inovadoras sobre futuros designs de hardware. Eles sugeriram otimizar hardware e arquiteturas de modelos juntos para enfrentar três principais desafios dos LLMs: eficiência de armazenamento, relação custo-benefício e velocidade de inferência. Isso fornece valiosas diretrizes para o desenvolvimento futuro de sistemas de IA.