Le 13 octobre, le groupe Ant Group a officiellement ouvert au public le premier cadre d'inférence de modèle de langage diffusion à haute performance, dInfer.

Dans les tests de référence, dInfer accélère la vitesse d'inférence des modèles de langage diffusion de 10,7 fois par rapport au cadre Fast-dLLM de NVIDIA ; dans les tâches de génération de code sur HumanEval, dInfer atteint une vitesse de 1011 tokens/seconde en inférence par lot unique, ce qui est le premier cas dans la communauté open source où la vitesse d'inférence par lot unique des modèles de langage diffusion dépasse significativement celle des modèles autorégressifs. Les travaux de dInfer montrent que les modèles de langage diffusion présentent un potentiel d'efficacité important, pouvant être pleinement exploités grâce à des innovations ingénieures systématiques, offrant ainsi une option compétitive pour l'architecture menant vers l'AGI.

Les modèles de langage diffusion, en tant que nouveau paradigme, considèrent la génération de texte comme un processus de désinfection progressif « récupérant progressivement une séquence complète à partir du bruit aléatoire », avec trois avantages majeurs : une forte parallélisation, une vue globale et une structure flexible. Grâce à ces atouts, les modèles tels que LLaDA-MoE développés par le groupe Ant Group et l'Université des sciences sociales de Chine ont déjà démontré une précision comparable aux modèles AR les plus performants sur plusieurs tests de référence. Cependant, en termes d'efficacité d'inférence, le grand potentiel théorique de dLLM a longtemps été entravé par des réalités difficiles. L'inférence efficace de dLLM fait face à trois défis majeurs : un coût de calcul élevé, une échec de la mémoire tampon KV et une décodification en parallèle. Ces goulets d'étranglement ont rendu la vitesse d'inférence des modèles de langage diffusion insatisfaisante. Comment briser ces contraintes pour libérer le potentiel d'efficacité d'inférence des modèles de langage diffusion est devenu un problème urgent à résoudre dans le domaine.

dInfer est un cadre d'inférence haute performance conçu spécifiquement pour les modèles de langage diffusion, intégrant profondément l'algorithme et le système. Il peut supporter divers modèles de langage diffusion, notamment LLaDA, LLaDA-MoE et LLaDA-MoE-TD.

dInfer comprend quatre modules principaux : l'accès au modèle (Model), le gestionnaire de mémoire tampon KV (KV-Cache Manager), le gestionnaire d'itération (Iteration Manager) et la stratégie de décodage (Decoder). Cette architecture modulaire permet aux développeurs de combiner et d'explorer stratégiquement différentes optimisations de modules, tout en effectuant des évaluations normalisées sur une plateforme commune. Plus important encore, dInfer intègre des solutions ciblées pour chacun des trois défis mentionnés ci-dessus dans chaque module.

image.png

(Figure : Architecture de dInfer)

Sur un nœud équipé de huit cartes graphiques NVIDIA H800, les performances de dInfer sont remarquables :

En comparaison avec la solution d'inférence précédente Fast-dLLM, dInfer a amélioré de manière significative la vitesse moyenne d'inférence (avg TPS) de 10,7 fois (681 contre 63,6) tout en maintenant la même qualité de modèle ; dans la tâche de génération de code HumanEval, dInfer a atteint une vitesse de 1011 tokens/seconde en inférence par lot unique ; comparé au modèle AR Qwen2.5-3B, paramétré et performant de manière similaire, fonctionnant sur le cadre de service d'inférence avancé vLLM, la vitesse moyenne d'inférence de dInfer est 2,5 fois supérieure (681 contre 277).

Le groupe Ant Group a indiqué que dInfer relie la recherche avancée à la mise en œuvre industrielle, marquant une étape clé pour que les modèles de langage diffusion passent du « faisable théorique » à l'« efficacité pratique ». Cette ouverture de code est également un appel à tous les développeurs et chercheurs du monde entier pour explorer ensemble le grand potentiel des modèles de langage diffusion et construire un nouvel écosystème IA plus efficace et ouvert.