Die Architektur von KI-Modellen durchläuft eine tiefgreifende Veränderung. Diffusions-Sprachmodelle gewinnen aufgrund ihrer parallelen Generierung und effizienten Inferenz aufgrund ihrer parallelen Generierung und effizienten Inferenz zunehmend an Aufmerksamkeit in der Branche. Am 9. Oktober gab die KI-Forschungsinstanz Radical Numerics offiziell RND1-Base bekannt, das bislang größte Open-Source-Diffusions-Sprachmodell mit einer Parametergröße von 30B, wobei 3B aktive Parameter sind. Es verwendet eine seltene Experten-Mischarchitektur. Das Modell erzielte gute Ergebnisse in Benchmark-Tests und veröffentlichte vollständige Gewichte, Trainingsrezepte und Inferenzcodes, um die Forschung zu nachtrainierten und inferenzbasierten Diffusions-Sprachmodellen zu beschleunigen.

RND1-Base basiert auf dem autoregressiven Grundmodell Qwen3-30BA3B und erreichte durch einfache kontinuierliche Vortraining eine nahtlose Transformation in das Diffusionsparadigma. Der Umwandlungsprozess nutzte eine bidirektionale Maske und spezifische Lernraten pro Schicht, um bestehendes Wissen zu bewahren, und setzte bei der großflächigen Ausbildung bis zu 8M Tokens ein, um Stabilität zu gewährleisten. Die Vortraining wurde schließlich auf 500B Tokens abgeschlossen. Dieser effiziente Ansatz vermeidet den Ressourcenverschwendung, die aus dem Training von Grund auf entsteht, und zeigt die innovative Denkweise von Radical Numerics im Bereich des Modellwiederverwendungs.

Im Gegensatz zur traditionellen sequenziellen Generation von Token in autoregressiven Sprachmodellen betrachtet RND1 die Textgenerierung wie einen Prozess der Bildentrauschung, bei dem die gesamte Sequenz parallel aus dem Rauschen gefiltert wird und eine bidirektionale Aufmerksamkeitsmechanik unterstützt. Dies verbessert nicht nur die Flexibilität und Kontrollierbarkeit der Generierung, sondern senkt auch die Inferenzverzögerung erheblich und ist besonders für komplexe Schlussfolgerungen und Codegenerierung geeignet.

image.png

In allgemeinen Benchmark-Tests zeigte RND1-Base starke Leistungen und übertraf vorherige Open-Source-Diffusions-Sprachmodelle wie Dream-7B und LLaDA-8B. Dazu gehören konkrete Ergebnisse wie 57,2 % auf MMLU für mehrere Sprachverstehen, 72,1 % auf GSM8K für mathematische Schlussfolgerung und 51,3 % auf MBPP für Codegenerierung. Diese Kennzahlen decken Bereiche wie Schlussfolgerung, STEM und Programmierung ab und belegen, dass das Modell sowohl die Vorteile des autoregressiven Grundmodells bewahrt als auch die Leistungsfähigkeit der Diffusionsarchitektur verbessert hat.

Die seltene Experten-Mischarchitektur von RND1 aktiviert nur 3B Parameter von insgesamt 30B Parametern und optimiert die Rechenleistung, was sie für große Anwendungen geeignet macht. Das Modell wurde noch nicht nachtrainiert, und bei der gierigen Auswahl kann es manchmal zu Wiederholungen kommen. Doch der Open-Source-Code enthält bereits FlashInfer und SGLang Backend, um schnelle Inferenziterationen zu unterstützen.

Radical Numerics positioniert sich als nächste Generation von KI-Laboratorien, die sich auf die Entwicklung eines rekursiven Selbstverbesserungs-Engines konzentrieren. RND1 ist das Ergebnis dieses Ziels, und durch eine automatisierte KI-Forschungsplattform ermöglicht das Modell, dass Modelle bei der Optimierung der nächsten KI-Generation beteiligt werden. Das Team besteht aus Forschern und Ingenieuren aus renommierten Institutionen wie DeepMind, Meta, Liquid und Stanford. Das Ziel ist es, dass KI selbst KI entwirft und dadurch wissenschaftliche und industrielle Entdeckungen beschleunigt.

Der Zweck der Öffentlichkeit von RND1 besteht darin, die Gemeinschaft anzuregen, die Inferenzoptimierung und Nachtrainingspotenzial von Diffusions-Sprachmodellen zu erkunden. Im Moment wandelt sich die Anwendung von Diffusionsmodellen im Sprachbereich vom experimentellen Stadium in das praktische Stadium, insbesondere bei der parallelen Generierung langer Sequenzen. Innerhalb der Branche wird erwartet, dass dieser Schritt mehr Experimente zur Umwandlung von autoregressiven Modellen in Diffusionsmodelle anregt und die Lücke im Open-Source-Ökosystem bei effizienten Generierungsmodellen füllt.

Obwohl RND1 in Bezug auf Größenordnung und Leistung führend ist, müssen die Generalisierungsfähigkeit und die Speicherbelastung von Diffusionsmodellen weiter optimiert werden. Zukünftig könnte die Kombination mit mehrzieliger Feinabstimmung oder gemischter Architektur ihre Potenziale noch stärker freisetzen. Radical Numerics hat bereits Stellenangebote veröffentlicht, und alle KI-Praktiker werden eingeladen, an dieser vordersten Forschung teilzunehmen.

Dieser Durchbruch markiert einen wichtigen Wendepunkt, bei dem Diffusions-Sprachmodelle vom theoretischen Studium in die technische Praxis übergehen. Durch die Offenlegung eines so großen Diffusionsmodells bietet Radical Numerics nicht nur dem Forschungsgemeinschaft ein wertvolles Werkzeug, sondern öffnet auch neue Möglichkeiten für die selbstgesteuerte Verbesserung und rekursive Optimierung von KI. Mit mehr Forschern, die sich in diesem Bereich engagieren, könnten Diffusions-Sprachmodelle zu einer wichtigen Richtung für die nächste Generation von KI-Architekturen werden.