Kürzlich erfuhr die ERNIE-4.5-21B-A3B-Thinking-Modellfamilie von Baidu eine wichtige Verbesserung – das Modell wurde offiziell als Open Source veröffentlicht und stieg schnell auf der Textgenerierungsmodellliste des Hugging Face-Plattforms an die Spitze, wobei es auch auf der Gesamtmodellliste den dritten Platz einnahm. Dieses leichte Mixture-of-Experts-(MoE)-Modell mit außergewöhnlichen Schlussfolgerungsfähigkeiten und Parameter-Effizienz hat große Aufmerksamkeit in der Branche geweckt und markiert einen weiteren Meilenstein im chinesischen AI-Open-Source-Ökosystem.

Modell-Kernspezifikationen und Innovationen

ERNIE-4.5-21B-A3B-Thinking verwendet eine fortschrittliche MoE-Architektur mit einer Gesamtparametergröße von 21B, wobei nur 3B Parameter pro Token aktiviert werden. Diese seltene Aktivierungsmechanik reduziert deutlich den Rechenaufwand und gleichzeitig wird eine hohe Leistung aufrechterhalten. Das Modell unterstützt eine Länge von 128K langen Kontextfenstern und ist besonders geeignet für komplexe langtextuelle Aufgaben wie logische Schlussfolgerungen, mathematische Lösungen und akademische Analysen.

image.png

Im Gegensatz zu den meisten Modellen, die auf dem PyTorch-Framework basieren, wurde die ERNIE-4.5-Serie mit dem selbstentwickelten PaddlePaddle-Deep-Learning-Framework von Baidu trainiert und optimiert. Die Gestaltung dieses eigenständigen Frameworks verbesserte nicht nur die Kompatibilität des Modells bei multimodalen Aufgaben, sondern sorgte auch für eine effiziente Hardware-Anpassung. Derzeit verwenden weltweit nur Baidu und Google selbstentwickelte Frameworks zur Entwicklung großer Modelle, was ihre technologische Eigenständigkeit und Innovationskraft unterstreicht.

Leistung: Effiziente Inferenz herausfordernd die Konkurrenz

Laut den neuesten Benchmark-Tests zeigte das Modell hervorragende Leistungen bei Aufgaben wie logischer Schlussfolgerung, Mathematik, Wissenschaft, Codierung und Textgenerierung und erreichte sogar in einigen Indikatoren oder übertraf Modelle auf dem Niveau von Gemini 2.5 Pro und GPT-5. Obwohl die Gesamtparameteranzahl nur 21B beträgt (etwa 70 % von Qwen3-30B), erreichte es bereits in den Mathematik-Schlussfolgerungsbenchmarks wie BBH und CMATH höhere Ergebnisse als seine Konkurrenten, was eine sehr hohe Parameter-Effizienz zeigt.

Zusätzlich verfügt das Modell über eine effiziente Werkzeugaufruffunktion, die strukturierte Funktionsaufrufe und Integration externer APIs unterstützt und sich für Szenarien wie Programmsynthese, symbolische Schlussfolgerung und Multi-Agenten-Workflows eignet. In Bezug auf die Verarbeitung langer Kontextfenster kann es durch spezielle Schulung stabil große Mengen an Informationen verarbeiten und akademisch qualifizierte synthetische Inhalte generieren, wodurch das Problem von Fehlinformationen deutlich reduziert wird. Das Modell unterstützt auch die Optimierung für zwei Sprachen (Chinesisch und Englisch) und ist für globale Entwickler und Unternehmen geeignet.

Die Rückmeldungen der Open-Source-Community zeigen, dass die Download-Zahlen und der Trend-Index des Modells auf Hugging Face stark gestiegen sind und es sich nun zu einer beliebten Wahl im Bereich der Textgenerierung entwickelt hat. Entwickler können das Modell leicht integrieren und lokal oder in der Cloud implementieren, indem sie Tools wie vLLM, Transformers 4.54+ und FastDeploy nutzen.

Open-Source-Bedeutung: Förderung der Demokratisierung von AI und Ökosystem-Entwicklung

ERNIE-4.5-21B-A3B-Thinking wurde unter der Apache 2.0-Lizenz veröffentlicht und ermöglicht kommerzielle Nutzung, was den Zugang zu AI-Technologie weiter senkt. Nachdem Baidu Ende Juni die anderen zehn Modelle der ERNIE 4.5-Familie öffentlich zugänglich gemacht hatte, verstärkte diese Veröffentlichung seine führende Position im Bereich der Open-Source-AI. Derzeit dominieren viele chinesische Open-Source-Ergebnisse die ersten Plätze auf Hugging Face, was die globale Wettbewerbsfähigkeit Chinas in Bezug auf MoE-Architekturen und Inferenzoptimierungen widerspiegelt.

Als die neueste Iteration der ERNIE-Modellfamilie verbesserte dieses Modell nicht nur die Leistung bei Anweisungsverfolgung und Wissensintensiven Aufgaben, sondern verstärkte auch seine „Denk“-Modus durch mehrere Runden der Verstärkungslernen. Bei visuell-sprachlichen Aufgaben zeigte auch seine VL-Variante gute Leistungen und verringerte den Abstand zu OpenAI-o1 in Benchmarks wie MathVista und MMMU.

Branchenwirkung und Zukunftsaussichten