Das Team von Step Star hat seine neueste Generation des Grundmodells Step3 offiziell als Open Source veröffentlicht. Step3 ist ein Modell, das speziell für Unternehmen und Entwickler entwickelt wurde, die eine optimale Balance zwischen Leistung und Kosten anstreben. Es zielt darauf ab, das am besten geeignete Modell für die Ära der Inferenz zu schaffen. Die Open-Source-Quellen von Step3 umfassen GitHub, Hugging Face und ModelScope, wodurch Entwicklern die freie Download- und Testmöglichkeit geboten wird.

Step3 verwendet eine MoE-Architektur mit insgesamt 321 Milliarden Parametern und aktiviert 38 Milliarden Parameter. Es verfügt nicht nur über starke visuelle Wahrnehmungsfähigkeiten und komplexe Schlussfolgerungsfähigkeiten, sondern kann auch komplexe Wissensverstehen über verschiedene Bereiche, Kreuzanalysen von Mathematik und visuellen Informationen sowie verschiedene visuelle Analyseprobleme im Alltag präzise lösen. Durch die Optimierungen MFA (Multi-matrix Factorization Attention) und AFD (Attention-FFN Disaggregation) wurde die Inferenzeffizienz von Step3 auf verschiedenen Chips erheblich verbessert. Darüber hinaus wurde der Kommunikationsbibliothek StepMesh, die für AFD-Szenarien entwickelt wurde, gemeinsam mit dem Modell als Open Source veröffentlicht. Sie bietet eine standardisierte Bereitstellungschnittstelle, die über verschiedene Hardware hinweg verwendet werden kann, und ermöglicht eine stabile Wiederholbarkeit der Schlüsselperformance in echten Diensten.

WeChat-Screenshot_20250801082013.png

Die zentrale Struktur von Step3 nutzt eine eigene MFA- Aufmerksamkeitsmechanik, die die KV-Cache-Kosten und Rechenleistungsaufwendungen bei der Aufmerksamkeitsberechnung effektiv reduziert. Unter Beibehaltung der Modellfähigkeit erreicht diese Lösung eine Balance zwischen Ressourcennutzung und Inferenzeffizienz, sodass das Modell große Durchsatzraten auf 8×48GB-Grafikkarten durchführen kann und somit realistisch einsetzbar ist. In Bezug auf multimodale Fähigkeiten verwendet Step3 einen Vision Encoder mit 5B Parametern und reduziert die Anzahl der visuellen Tokens auf ein Sechzehntel durch eine zweistufige 2D-Konvolution, was den Druck auf die Kontextlänge verringert und die Inferenzeffizienz erhöht. Der Trainingsprozess erfolgt in zwei Phasen: In der ersten Phase wird der Encoder gestärkt, und in der zweiten Phase wird der visuelle Encoder eingefroren und nur der Hauptkörper und die Verbindungsschichten optimiert, um Gradientenstörungen zu reduzieren. Die Trainingsdaten umfassen Paar-, Interleave- und Multitask-Daten. Während der Reinigungsphase wurden Ähnlichkeitsfilterung, Neuanpassung und Kontrolle der Aufgabenproportionen eingeführt, um die Qualität der Bild-Text-Zusammenarbeit und die Robustheit des Trainings weiter zu verbessern.

Step3 hat den Dekodierungsprozess auf Systemarchitekturebene neu gestaltet und sich dabei auf das Lösen von Inferenzengpässen und Ressourcenunvereinbarkeiten konzentriert, die durch die gemischte Ausführung von Attention und FFN entstehen. Dazu hat das Team eine hochleistende AFD-Lösung implementiert, die die beiden Berechnungsaufgaben in zwei Untersysteme entkoppelt und durch mehrstufige Pipelineparallelisierung die Gesamtdurchsatzeffizienz effektiv steigert. Da die entkoppelten Untersysteme hohe Anforderungen an die Datenübertragung stellen, hat das Team gleichzeitig die Kommunikationsbibliothek StepMesh für AFD-Szenarien entwickelt. Sie ermöglicht eine niedrige Latenz und eine hohe Bandbreite über verschiedene Karten hinweg, basierend auf GPU Direct RDMA, und bietet gleichzeitig Vorteile wie die Nichtnutzung von GPU-Rechenressourcen und die Kompatibilität mit verschiedenen heterogenen Hardware-Systemen. Unter der Voraussetzung einer SLA von 50 ms erreicht Step3 auf Hopper-GPUs eine Durchsatzrate von 4039 Token/GPU/s, was deutlich höher ist als bei ähnlichen Einstellungen DeepSeek V3 (2324 Token/GPU/s). Dieser Leistungsverbesserungsgewinn kann sich in bestimmten Hardware- und langen Text-Szenarien sogar um 300 % erhöhen.

Step3 wurde auf Bewertungssammlungen wie MMMU, MathVision, SimpleVQA, AIME2025, GPQA-Diamond und LiveCodeBench (August 2024 bis Mai 2025) getestet. Im Vergleich zu anderen Open-Source-Modellen in derselben Kategorie hat Step3 führende Ergebnisse erzielt. Zum Beispiel kann Step3 bei der Aufgabe „Geschäftsmahlzeit anordnen“ die Struktur im Bild erkennen, die Etikette-Regeln, Rollenbeziehungen und räumliche Logik automatisch analysieren und dann unter Berücksichtigung der chinesischen Sozialetikette einen vollständigen logischen Verteilungsplan für 12 Personen ableiten. Schließlich gibt es eine klare, strukturierte globale Sitzordnung mit „Hauptgast-Hauptbegleiter“, die in Tabellen und ASCII-Graphiken dargestellt wird. Bei der Kalorienberechnung kann Step3 komplexe Kassenbons verstehen, Gerichte kategorisieren und die Kalorienwerte zuordnen, um letztendlich zu berechnen, dass zwei Personen insgesamt 5710 Kilokalorien gegessen haben, also 2855 Kilokalorien pro Person. Der gesamte Prozess von den Rohdaten bis zur Schlussfolgerung ist klar nachvollziehbar und bildet ein vollständiges geschlossenes System.

Die Step3-API ist auf der Plattform von Step Star (platform.stepfun.com) online. Entwickler können auch auf der Website von „Step AI“ (stepfun.com) und in der „Step AI“-App (im App Store suchen und herunterladen) testen. Das Modell befindet sich derzeit in einer zeitlich begrenzten Rabattaktion, wobei alle Anfragen zum niedrigsten Preis berechnet werden. Der Preis liegt bei 1,5 Yuan pro Million Token für Eingabe und 4 Yuan für Ausgabe.

Github: https://github.com/stepfun-ai/Step3

Hugging Face: https://huggingface.co/stepfun-ai/step3

ModelScope:

https://www.modelscope.cn/models/stepfun-ai/step3

https://www.modelscope.cn/models/stepfun-ai/step3-fp8