El equipo de investigación de la empresa de inteligencia artificial DeepSeek anunció el lunes que ha lanzado un nuevo modelo experimental llamado V3.2-exp, diseñado para reducir significativamente los costos de razonamiento en operaciones con contexto largo mediante una innovadora "mecánica de atención dispersa". Este avance histórico se publicó simultáneamente en Hugging Face y GitHub, junto con un artículo académico detallado.
El núcleo del modelo es su único mecanismo de atención dispersa DeepSeek. Este sistema complejo consta de dos partes: primero, un módulo llamado "indice rápido" prioriza ciertas citas dentro de la ventana de contexto; segundo, un sistema independiente de selección de tokens granulares selecciona los tokens clave de estas citas prioritarias y los carga en una ventana de atención limitada. La combinación de estos mecanismos permite al modelo de atención dispersa procesar eficientemente fragmentos de contexto largo con un menor costo en el servidor.
En pruebas iniciales, el nuevo modelo mostró ventajas significativas. DeepSeek informó que el costo de las llamadas simples a la API en operaciones con contexto largo puede reducirse hasta la mitad. Aunque aún se necesitan más pruebas de terceros para validar estos resultados, debido a que el modelo tiene pesos abiertos y está disponible gratuitamente en Hugging Face, su rendimiento real será pronto validado por la industria.
Este avance de DeepSeek es uno de una serie de innovaciones recientes destinadas a resolver problemas de costos de razonamiento en IA. Los costos de razonamiento se refieren a los costos de los servidores para ejecutar modelos de IA entrenados, no a los costos de entrenamiento. A diferencia del modelo R1, que se enfocaba en reducir los costos de entrenamiento, este nuevo modelo se centra en mejorar la eficiencia de la arquitectura básica Transformer, proporcionando así una solución más económica para la difusión de aplicaciones de IA.
DeepSeek ha recibido mucha atención durante la actual ola de IA. Su modelo anterior R1, que utilizó un método de entrenamiento de aprendizaje por refuerzo de bajo costo, generó interés. Aunque el método de atención dispersa de esta vez podría no causar tanto impacto como el R1, ofrece una experiencia valiosa para los proveedores globales de IA, ayudándolos a reducir conjuntamente los costos operativos de los servicios de IA.