Recientemente, el gigante tecnológico NVIDIA se ha asociado con el Instituto Tecnológico de Massachusetts (MIT) y la Universidad de Hong Kong para lanzar un nuevo marco llamado Fast-dLLM. Este innovador marco tiene como objetivo aumentar significativamente la velocidad de inferencia de los modelos basados en difusión (Diffusion-based LLMs), alcanzando hasta 27.6 veces más rápido, proporcionando así un soporte técnico más poderoso para las aplicaciones de inteligencia artificial.
Desafíos y oportunidades de los modelos de difusión
Los modelos de difusión se consideran competidores fuertes de los modelos autoregresivos tradicionales (Autoregressive Models). Utilizan mecanismos de atención bidireccional (Bidirectional Attention Mechanisms), lo que teóricamente les permite acelerar el proceso de decodificación al generar múltiples tokens simultáneamente (Multi-token Generation). Sin embargo, en la práctica, la velocidad de inferencia de los modelos de difusión a menudo no puede superar a la de los modelos autoregresivos debido a que cada paso de generación requiere calcular y almacenar todos los estados de atención nuevamente, lo que incrementa considerablemente el costo computacional. Además, cuando se decodifican múltiples tokens simultáneamente, es fácil que las relaciones de dependencia entre los tokens se rompan, afectando así la calidad de la generación.
Innovaciones del marco Fast-dLLM
Para resolver estos problemas, el equipo de NVIDIA desarrolló el marco Fast-dLLM, introduciendo dos innovaciones clave: el mecanismo de caché aproximada KV por bloques y la estrategia de decodificación paralela sensible a la confianza.
1. ** Mecanismo de caché aproximada KV por bloques **: Este mecanismo divide la secuencia en varios bloques (Blocks), calcula y almacena de antemano los valores de activación (KV Activations) de cada bloque, y reutiliza estos datos en pasos posteriores de decodificación. Esta forma reduce significativamente el cálculo redundante y mejora la eficiencia. Su versión DualCache también almacena tokens de prefijo y sufijo (Prefix and Suffix Tokens), aprovechando la alta similitud entre pasos de inferencia consecutivos para aumentar la velocidad de procesamiento.
2. ** Estrategia de decodificación paralela sensible a la confianza **: Esta estrategia selecciona de manera selectiva los tokens con mayor nivel de confianza según un umbral establecido (Confidence Threshold), evitando los conflictos de dependencia causados por muestreo simultáneo y asegurando así la calidad de la generación.
Excelentes resultados de rendimiento
Fast-dLLM ha demostrado un excelente desempeño en varias pruebas de referencia. En el conjunto de datos GSM8K, cuando se genera una longitud de 1024 tokens, su configuración de 8-shot logró una aceleración de 27.6 veces, con una precisión del 76.0%; en las pruebas de benchmark MATH, la aceleración fue de 6.5 veces, con una precisión de aproximadamente el 39.3%; en los tests HumanEval y MBPP, respectivamente, se lograron aceleraciones de 3.2 veces y 7.8 veces, manteniendo una precisión cercana al 54.3% y al nivel base. En general, Fast-dLLM equilibra bien la velocidad y la calidad, ya que solo disminuye la precisión en 1-2 puntos porcentuales al mejorar la velocidad.
A través de la resolución de los problemas de eficiencia de inferencia y calidad de decodificación, Fast-dLLM otorga a los modelos de difusión la capacidad de competir con los modelos autoregresivos en tareas de generación de lenguaje práctico, sentando las bases para futuros usos más amplios. Con la promoción de esta tecnología, esperamos ver aplicaciones más reales de la inteligencia artificial en más áreas.
Proyecto: https://nvlabs.github.io/Fast-dLLM/