Kürzlich hat Qafind Labs sein neuestes ChatDLM-Modell veröffentlicht, eine Innovation, die in der KI-Branche große Aufmerksamkeit erregt hat. ChatDLM ist das erste Modell, das „Block Diffusion“ und „Mixture of Experts (MoE)“ tiefgreifend integriert. Es erreicht auf GPUs eine beeindruckende Inferenzgeschwindigkeit von 2.800 Tokens/s und unterstützt ein extrem großes Kontextfenster von 131.072 Tokens. Dies läutet eine neue Ära für die dokumentenbasierte Generierung und Echtzeit-Dialoge ein.

微信截图_20250428082020.png

Das Kernstück von ChatDLM ist seine einzigartige Architektur. Das Modell verwendet 7 Milliarden Parameter. Durch die Block-Diffusions-Technologie werden Eingaben in Blöcke gruppiert und mit räumlicher Diffusion und Cross-Block-Aufmerksamkeitsmechanismen kombiniert, wodurch die Verarbeitungsgeschwindigkeit erheblich gesteigert wird. Gleichzeitig integriert ChatDLM die MoE-Technologie mit 32 bis 64 Experten, wobei jeweils 2 Experten für die Verarbeitung ausgewählt werden. Dieser flexible Mechanismus optimiert die Modellleistung weiter.

Um einen extrem großen Kontext zu unterstützen, verwendet ChatDLM RoPE-Optimierung und hierarchische Caching-Techniken, wodurch die Speicherfähigkeit des Modells deutlich verbessert wird. Bei der Inferenzoptimierung nutzt ChatDLM Techniken wie dynamisches Early Stopping, BF16-Mixed-Precision und ZeRO-Sharding, um die einfache Skalierung auf mehreren GPUs zu ermöglichen und die Effizienz und Skalierbarkeit des Modells weiter zu verbessern.

In Leistungstests zeigte ChatDLM auf A100-GPUs hervorragende Ergebnisse mit einem Durchsatz von 2.800 Tokens/s, einer Kontextlänge von 131.072 Tokens und einer durchschnittlichen Iterationszahl zwischen 12 und 25. Im HumanEval (0-shot)-Test erreichte ChatDLM eine Genauigkeit von 92,0 %, im Fill-in-the-Middle-Test 84,2 % und im ARC-E (0-shot)-Test 83,9 %. Diese Daten belegen die herausragende Leistung des Modells.

Zukünftig plant Qafind Labs, ChatDLM um weitere fortschrittliche Technologien zu erweitern, darunter adaptive Iteration, Graph-Attention und Multimodal Diffusion, um die Genauigkeit und den Anwendungsbereich des Modells weiter zu verbessern.

Testversion: https://www.chatdlm.cn