Récemment, l'équipe de DeepSeek a publié un document technique sur leur dernier modèle, DeepSeek-V3, dans lequel ils abordent les « problèmes d'extension » liés à l'entraînement de grands modèles d'intelligence artificielle ainsi que leurs réflexions sur l'architecture matérielle. Ce document de 14 pages résume non seulement les expériences et leçons apprises par DeepSeek lors du développement du projet V3, mais offre également des insights approfondis sur les futures architectures matérielles. Il est particulièrement notable que le PDG de DeepSeek, Liang Wenfeng, a participé à la rédaction de ce document.

image.png

L'adresse de publication de l'article est : https://arxiv.org/pdf/2505.09343

Cette étude montre que l'extension rapide des grands modèles de langage (LLMs) met en évidence les limites des architectures matérielles existantes, comme la capacité de stockage, la puissance de calcul et la bande passante de communication entre les processeurs. DeepSeek-V3 a été entraîné sur un cluster de 2048 GPUs NVIDIA H800, et a surmonté ces limitations grâce à un design efficace adapté à cette infrastructure matérielle, ce qui a permis une formation et une inférence rentables.

image.png

Le document présente plusieurs éléments clés. Premièrement, DeepSeek-V3 utilise une architecture avancée appelée DeepSeekMoE et l'architecture Multi-Head Potential Attention (MLA), ce qui permet une amélioration significative de l'efficacité de stockage. La technologie MLA réduit la consommation mémoire en compressant les caches de clés-valeurs, nécessitant ainsi seulement 70 KB de mémoire par token, bien moins que d'autres modèles.

Deuxièmement, DeepSeek a également optimisé le rapport coût-efficacité. Grâce à son architecture mixte d'experts (MoE), le nombre de paramètres activés dans DeepSeek-V3 a été considérablement réduit, ce qui a abaissé les coûts de formation par rapport aux modèles classiques denses. De plus, la vitesse d'inférence a été améliorée en implémentant une architecture à double micro-batch avec superposition pour maximiser la capacité de traitement et optimiser l'utilisation des ressources GPU.

DeepSeek a présenté des idées innovantes concernant les futurs designs matériels. Ils ont suggéré d'optimiser conjointement le matériel et les architectures des modèles pour répondre aux trois principaux défis des LLMs : l'efficacité de stockage, le rapport coût-efficacité et la vitesse d'inférence. Cela offre des indications précieuses pour le développement futur des systèmes d'intelligence artificielle.