Das Team der Ant BaiLing-Modellreihe hat kürzlich die Open-Source-Veröffentlichung ihres neuen effizienten Inferenzmodells – Ring-mini-sparse-2.0-exp – angekündigt. Das Modell basiert auf der Ling2.0-Architektur und wurde speziell für die Verarbeitung langer Sequenzen optimiert, wobei eine innovative seltene Aufmerksamkeitsmechanik eingesetzt wird.

Diese neue Architektur verbindet geschickt die Struktur des Mixture of Experts (MoE) mit einer hohen Selteneinstellung und die seltene Aufmerksamkeitsmechanik, um die Leistung des Modells in komplexen Szenarien mit langen Sequenzen zu verbessern.

image.png

Das Team gab an, dass dank der tiefen Zusammenarbeit zwischen Architektur und Inferenzframework die Durchsatzleistung von Ring-mini-sparse-2.0-exp bei der Verarbeitung langer Sequenzen fast dreimal so hoch ist wie die seines Vorgängers Ring-mini-2.0.

Auch in mehreren anspruchsvollen Benchmark-Tests zeigte das Modell weiterhin SOTA-(State of the Art)-Leistung und demonstrierte seine hervorragende Fähigkeit zur Verarbeitung von Kontext und effizienten Inferenz, was eine neue leichte Lösung für die Open-Source-Gemeinschaft bietet.

Die Ling2.0Sparse-Architektur dient primär dazu, zwei zentrale Trends in der Zukunft großer Sprachmodelle zu lösen: die Erweiterung der Kontextlänge und die Erweiterung beim Testen. Das Team hat sich bei der Gestaltung der Mixture of Block Attention (MoBA) inspirieren lassen und setzt blockweise seltene Aufmerksamkeit ein, bei der die Eingabe Key und Value in Blöcke unterteilt werden. Jeder Query wählt in der Head-Dimension die top-k Blöcke aus.

Nur in den ausgewählten Blöcken erfolgt die Berechnung der Softmax, was den Rechenaufwand erheblich reduziert. Darüber hinaus hat das Team die MoBA-Entwurfsidee mit Grouped Query Attention (GQA) kombiniert, wodurch query heads innerhalb derselben Gruppe gemeinsam die Ergebnisse der top-k-Blöckauswahl teilen und somit den I/O-Aufwand verringern.

GitHub: https://github.com/inclusionAI/Ring-V2/tree/main/moba

Wichtige Punkte:  

🌟 Das neue Modell Ring-mini-sparse-2.0-exp zeigt hervorragende Leistung bei der Verarbeitung langer Sequenzen und erhöht den Durchsatz fast um das Dreifache.  

🔍 Das Modell verwendet eine innovative seltene Aufmerksamkeitsmechanik, die effiziente Inferenz und Kontextverarbeitung gleichzeitig berücksichtigt.  

📥 Das Modell ist auf verschiedenen Plattformen als Open Source verfügbar, was die Anwendung und Forschung in der Gemeinschaft erleichtert.