Kürzlich haben die Technologie-Giganten NVIDIA, das Massachusetts Institute of Technology (MIT) und die University of Hong Kong einen neuen Rahmen namens Fast-dLLM veröffentlicht. Dieses innovative Framework zielt darauf ab, die Schlussfolgerungsgeschwindigkeit von Diffusionsmodellen (Diffusion-based LLMs) signifikant zu verbessern, um bis zu 27,6-fache Beschleunigung zu erreichen, und bietet dadurch eine stärkere technische Unterstützung für Anwendungen der künstlichen Intelligenz.

Die Herausforderungen und Chancen der Diffusionsmodelle

Diffusionsmodelle gelten als starke Konkurrenten traditioneller autoregressiver Modelle (Autoregressive Modelle). Sie verwenden bidirektionale Aufmerksamkeitsmechanismen (Bidirectional Attention Mechanisms), um im Prinzip durch die gleichzeitige Generierung mehrerer Token (Multi-token Generation) den Decodierungsprozess zu beschleunigen. Tatsächlich ist jedoch die Schlussfolgerungsgeschwindigkeit der Diffusionsmodelle oft langsamer als bei autoregressiven Modellen, da bei jedem Generierungsschritt alle Aufmerksamkeitszustände neu berechnet werden müssen, was die Rechenkosten erhöht. Außerdem können beim synchronen Decodieren von Mehrfach-Token die Abhängigkeiten zwischen den Token leicht gestört werden, was die Qualität der Generierung beeinträchtigt.

image.png

Innovative Ansätze des Fast-dLLM-Frameworks

Um diese Probleme zu lösen, hat das Team von NVIDIA das Fast-dLLM-Framework entwickelt und zwei wichtige Innovationen vorgestellt: das Block-Approximation-KV-Cache-Mechanismus und die Vertrauenswürdigkeitsorientierte parallele Decodierungsstrategie.

1. ** Block-Approximation-KV-Cache-Mechanismus **: Dieser Mechanismus teilt die Sequenz in mehrere Blöcke (Blocks) auf, berechnet und speichert vorab die Aktivierungswerte (KV Activations) jedes Blocks und nutzt sie wiederholend im nachfolgenden Decodieren. Dadurch wird die redundanten Berechnungen erheblich reduziert und die Effizienz verbessert. Seine Version DualCache speichert zudem Präfix- und Suffix-Token, um die Geschwindigkeit durch die hohe Ähnlichkeit zwischen benachbarten Decodierschritten zu erhöhen.

2. ** Vertrauenswürdigkeitsorientierte parallele Decodierungsstrategie **: Diese Strategie wählt basierend auf einem vorgegebenen Schwellwert (Confidence Threshold) die Token mit hoher Vertrauenswürdigkeit zur Decodierung aus, um Abhängigkeitskonflikte durch synchrones Sampling zu vermeiden und so die Generierungsqualität sicherzustellen.

image.png

Herausragende Leistungsanzeige

Fast-dLLM zeigt sich in mehreren Benchmark-Tests überzeugend. Bei der GSM8K-Datensammlung erreichte die 8-Shot-Konfiguration bei einer Generierungslänge von 1024 Token eine Geschwindigkeitssteigerung von 27,6-fachen und eine Genauigkeit von 76,0 %; bei der MATH-Benchmark wurde eine Beschleunigung von 6,5-fachen erreicht und eine Genauigkeit von etwa 39,3 %. In den Tests HumanEval und MBPP wurden jeweils Beschleunigungen von 3,2-fachen und 7,8-fachen erreicht, wobei die Genauigkeit bei 54,3 % und dem Baseline-Niveau blieb. Im Allgemeinen zeigt Fast-dLLM bei Verbesserung der Geschwindigkeit nur einen Rückgang der Genauigkeit um 1-2 Prozentpunkte an und erreicht ein effizientes Gleichgewicht zwischen Geschwindigkeit und Qualität.

Durch die Lösung der Effizienzprobleme der Schlussfolgerung und der Decodierqualität ist Fast-dLLM in der Lage, Diffusionsmodelle im praktischen Sprachgenerierungsaufgaben mit autoregressiven Modellen konkurrenzfähig zu machen und die Grundlage für zukünftige breitere Anwendungen zu schaffen. Mit der Verbreitung dieser Technologie können wir erwarten, dass die KI in noch mehr Bereichen praktische Anwendungen findet.

Projekt: https://nvlabs.github.io/Fast-dLLM/