DeepSeek-V2 es un modelo de lenguaje de experto mixto (MoE) con 236 mil millones de parámetros que activa 21 mil millones de parámetros por token, manteniendo un entrenamiento económico y una inferencia eficiente. En comparación con su predecesor, DeepSeek 67B, DeepSeek-V2 ofrece un rendimiento superior, ahorrando un 42,5% en los costes de entrenamiento, reduciendo la caché KV en un 93,3% y aumentando el rendimiento máximo de generación hasta 5,76 veces. El modelo se preentrenó en un corpus de alta calidad de 8,1 billones de tokens y se optimizó aún más mediante ajuste fino supervisado (SFT) y aprendizaje por refuerzo (RL), lo que le permite destacar en pruebas de referencia estándar y evaluaciones de generación abierta.