Récemment, le géant de la technologie NVIDIA a collaboré avec l'Université de Hong Kong et le MIT pour lancer un nouveau cadre appelé Fast-dLLM. Cette innovation vise à accélérer de manière significative la vitesse d'inférence des modèles de diffusion (Diffusion-based LLMs), avec une amélioration allant jusqu'à 27,6 fois, fournissant ainsi un soutien technique plus puissant pour les applications d'intelligence artificielle.

Les défis et opportunités des modèles de diffusion

Les modèles de diffusion sont considérés comme des concurrents solides des modèles autoregressifs traditionnels (Autoregressive Models). Ils utilisent des mécanismes de double attention (Bidirectional Attention Mechanisms) pour générer plusieurs tokens simultanément (Multi-token Generation), ce qui devrait théoriquement accélérer le processus de décodage. Cependant, dans la pratique, la vitesse d'inférence des modèles de diffusion est souvent inférieure aux modèles autoregressifs, principalement en raison du fait que chaque étape de génération nécessite un recalcul complet des états d'attention, entraînant des coûts de calcul élevés. De plus, lors de la décodage synchronisé pour plusieurs tokens, les relations de dépendance entre les tokens risquent d'être perturbées, affectant ainsi la qualité de la génération.

image.png

Innovations apportées par le cadre Fast-dLLM

Pour remédier à ces problèmes, l'équipe de NVIDIA a développé le cadre Fast-dLLM, introduisant deux innovations majeures : le mécanisme de cache approximatif KV en blocs et la stratégie de décodage parallèle sensible à la confiance.

1. ** Mécanisme de cache approximatif KV en blocs ** : Ce mécanisme divise la séquence en plusieurs blocs (Blocks), calcule et stocke à l'avance les valeurs d'activation (KV Activations) de chaque bloc, afin d'utiliser ces valeurs réutilisables dans les étapes de décodage suivantes. Cette méthode réduit sensiblement les calculs redondants, augmentant ainsi l'efficacité. Sa version DualCache cache également les tokens préfixes et suffixes (Prefix and Suffix Tokens), exploitant la grande similarité entre les étapes de décodage adjacentes pour améliorer la vitesse de traitement.

2. ** Stratégie de décodage parallèle sensible à la confiance ** : Cette stratégie choisit de décoder sélectivement les tokens avec un niveau de confiance élevé en fonction d'un seuil défini (Confidence Threshold), évitant ainsi les conflits de dépendance causés par l'échantillonnage synchronisé, garantissant ainsi la qualité de la génération.

image.png

Performance exceptionnelle

Fast-dLLM se distingue dans plusieurs tests de référence. Sur le jeu de données GSM8K, avec une longueur de génération de 1024 tokens, sa configuration à 8-shots a atteint une accélération de 27,6 fois, avec un taux de précision de 76,0 % ; sur le test de référence MATH, l'accélération était de 6,5 fois, avec un taux de précision d'environ 39,3 % ; dans les tests HumanEval et MBPP, les accélérations respectives étaient de 3,2 fois et 7,8 fois, avec un taux de précision maintenu à 54,3 % et au niveau de la ligne de base. Dans l'ensemble, Fast-dLLM équilibre efficacement la vitesse et la qualité, avec une diminution de précision d'à peine 1 à 2 points de pourcentage.

En résolvant les problèmes d'efficacité d'inférence et de qualité de décodage, Fast-dLLM permet aux modèles de diffusion de rivaliser avec les modèles autoregressifs dans les tâches génératives pratiques, posant ainsi des bases solides pour des applications futures plus largement diffusées. Avec la promotion de cette technologie, nous pouvons espérer voir l'intelligence artificielle appliquée dans de nombreux autres domaines.

Projet : https://nvlabs.github.io/Fast-dLLM/