Recientemente, el equipo de DeepSeek publicó un documento técnico sobre su último modelo, DeepSeek-V3, en el que abordan los "problemas de expansión" en el contexto del entrenamiento de grandes modelos de inteligencia artificial y comparten reflexiones sobre su arquitectura de hardware. Este documento de 14 páginas no solo recopila las experiencias y lecciones aprendidas durante el desarrollo del proyecto V3, sino que también ofrece valiosas perspectivas sobre los diseños de hardware futuros. Lo más destacado es que el CEO de DeepSeek, Liang Wenfeng, participó activamente en la creación de este documento.

image.png

La dirección de publicación del artículo es: https://arxiv.org/pdf/2505.09343

Este estudio muestra cómo la rápida expansión de grandes modelos de lenguaje (LLMs) pone al descubierto los límites de las arquitecturas de hardware existentes, como la capacidad de memoria, el rendimiento computacional y la banda de comunicación entre procesadores. DeepSeek-V3 se entrenó en un clúster de 2048 GPUs NVIDIA H800 y superó estas limitaciones mediante un diseño eficiente que se ajustaba conscientemente a la infraestructura de hardware, lo que permitió un entrenamiento e inferencia más rentables.

image.png

El documento presenta varios elementos clave. En primer lugar, DeepSeek-V3 utiliza la avanzada arquitectura DeepSeekMoE y la arquitectura de Atención de Multiples Cabezas Potenciales (MLA), lo que mejora significativamente la eficiencia de almacenamiento. La tecnología MLA reduce el consumo de memoria comprimiendo el almacenamiento de claves-valores, necesitando solo 70 KB de memoria por token, mucho menos que otros modelos.

En segundo lugar, DeepSeek también optimizó la relación costo-beneficio. A través de su arquitectura de expertos mixtos (MoE), DeepSeek-V3 logró reducir significativamente el número de parámetros activados, disminuyendo drásticamente los costos de entrenamiento en comparación con los modelos densos tradicionales. Además, se mejoró la velocidad de inferencia implementando una arquitectura de doble microlote con superposición para maximizar la capacidad de procesamiento y utilizar de manera óptima los recursos de GPU.

DeepSeek presentó innovadoras ideas sobre los diseños futuros de hardware. Propusieron optimizar conjuntamente el hardware y las arquitecturas de los modelos para abordar tres principales desafíos de los LLMs: eficiencia energética, relación costo-beneficio y velocidad de inferencia. Esto proporciona valiosas indicaciones para el futuro desarrollo de sistemas de IA.