Heute führen wir offiziell Ring-mini-2.0 ein, einen leistungsstarken MoE-Modell, der auf der Ling-mini-2.0-Architektur tiefgründig optimiert wurde. Die Gesamtanzahl der Parameter von Ring-mini-2.0 beträgt 16B, jedoch reichen bei der tatsächlichen Ausführung nur 1,4B Parameter aus, um die Inferenzleistung eines dichten Modells im Bereich von 10B zu erreichen.

Dieser Modell zeichnet sich besonders in logischen Schlussfolgerungen, Programmierung und mathematischen Aufgaben aus. Er unterstützt einen langen Kontext von 128K und zeigt dadurch in verschiedenen Anwendungsszenarien eine starke Leistung. Darüber hinaus ist die Generationsgeschwindigkeit von Ring-mini-2.0 beeindruckend und kann bis zu 300+ Token/s erreichen. Nach Optimierung kann sie sogar über 500+ Token/s übertreffen.

Großmodell Metaverse (1)

Quellenhinweis der Abbildung: Die Abbildung wurde von AI generiert, der Bildlizenzanbieter ist Midjourney

In Bezug auf die Verbesserung der Inferenzfähigkeit hat Ring-mini-2.0 eine tiefere Trainingsphase auf Basis von Ling-mini-2.0-base durchgeführt. Durch die kombinierte Optimierung von Long-COT SFT, großem RLVR und RLHF wurde die Stabilität und Generalisierbarkeit des Modells in komplexen Inferenzaufgaben deutlich gesteigert. In mehreren anspruchsvollen Benchmark-Tests haben wir festgestellt, dass seine Leistung erheblich besser als die von dichten Modellen unter 10B ist und sogar mit einigen größeren MoE-Modellen mithalten kann, insbesondere in Bezug auf logische Schlussfolgerungen.

Zudem legt Ring-mini-2.0 großen Wert auf Effizienz. Durch eine Expertenaktivierungsrate von 1/32 und eine MTP-Ebene Architekturoptimierung erreicht es eine äquivalente Leistung wie ein dichtes Modell mit etwa 7-8B Parametern. Diese hohe Spärlichkeit und kleine Aktivierungsgestaltung ermöglichen es, in H20-Umgebungen eine Inferenzgeschwindigkeit von 300+ Token/s zu erreichen. Mit der Optimierung von Expert Dual Streaming wird zudem der Inferenzkosten reduziert.

Um Forschung und Anwendung in der Wissenschaft und Industrie zu fördern, werden die Modellgewichte, Trainingsstrategie und Datenrezept von Ring-mini-2.0 vollständig Open Source zur Verfügung gestellt. Wir erwarten, dass dieses „kleine aber gute“ Modell zur bevorzugten Wahl für kleine Inferenzmodelle wird. Wir laden Sie herzlich ein, unsere Open-Source-Repositorys zu besuchen, um das Modell herunterzuladen und zu verwenden. In Zukunft werden wir unter der Unterstützung der Ling2.0-Architektur größere, schnellere und stärkere Sprachmodelle und multimodale Modelle veröffentlichen. Halten Sie gespannt!