Am 24. April gab Kunlun Wanwei die offizielle Open-Source-Veröffentlichung seines multimodalen Inferenzmodells Skywork-R1V2.0 (im Folgenden R1V2.0 genannt) bekannt. Diese aktualisierte Version zeigt sowohl in der visuellen als auch in der textbasierten Inferenzfähigkeit eine deutliche Verbesserung, insbesondere bei der tiefgehenden Inferenz komplexer naturwissenschaftlicher Aufgaben im Abitur und in allgemeinen Szenarien. Es gilt als das derzeit ausgewogenste Open-Source-Multimodalmodell mit visueller und textbasierter Inferenzfähigkeit.
Die Open-Source-Veröffentlichung von R1V2.0 ist nicht nur ein Beweis für die technologische Stärke von Kunlun Wanwei im Multimodalbereich, sondern bietet auch Entwicklern und Forschern weltweit ein leistungsstarkes Werkzeug zur Förderung des Aufbaus eines multimodalen Ökosystems. Das Modell hat in mehreren renommierten Benchmark-Tests neue Open-Source-SOTA-Rekorde aufgestellt und zeigt eine Leistung, die mit kommerziellen Closed-Source-Modellen vergleichbar ist.
Umfassende Leistungsverbesserung, führend im chinesischen Sprachraum
R1V2.0 zeichnet sich besonders im chinesischen Sprachraum aus, insbesondere bei der Inferenz von naturwissenschaftlichen Aufgaben (Mathematik, Physik, Chemie), und fungiert als kostenloser KI-Lösungsassistent. Das Modell erzielte nicht nur eine hervorragende Punktzahl von 73,6 Punkten im MMMU-Test und stellte damit einen neuen Open-Source-SOTA-Rekord auf, sondern erreichte auch 62,6 Punkte im Olympiad Bench und lag damit deutlich vor anderen Open-Source-Modellen. Darüber hinaus erzielte R1V2.0 in mehreren visuellen Inferenz-Rankings wie MathVision, MMMU-PRO und MathVista hervorragende Ergebnisse, wobei mehrere Fähigkeiten mit Closed-Source-Kommerzmodellen vergleichbar sind.
Im Bereich der textbasierten Inferenz erzielte R1V2.0 in den Herausforderungen AIME2024 und LiveCodeBench 78,9 bzw. 63,6 Punkte und zeigte damit ein Expertenniveau im Verständnis von Mathematik und Code. Diese Ergebnisse zeigen, dass R1V2.0 nicht nur bei der visuellen Inferenz, sondern auch bei der textbasierten Inferenz überragende Fähigkeiten besitzt.
Technische Highlights: Multimodales Belohnungsmodell und hybride Präferenzoptimierung
Die Leistungsverbesserung von R1V2.0 ist auf mehrere technische Innovationen zurückzuführen. Am bemerkenswertesten ist das neu eingeführte multimodale Belohnungsmodell Skywork-VL Reward und der hybride Präferenzoptimierungsmechanismus (MPO).
Das Skywork-VL Reward-Modell liefert hochwertige Belohnungssignale für multimodales Reinforcement Learning und kann die Gesamtqualität der lang sequenziellen Ausgabe von multimodalen Inferenzmodellen präzise bewerten. Dieses Modell erzielte im VL-RewardBench-Ranking für visuelle Belohnungsmodelle eine SOTA-Punktzahl von 73,1 und erreichte gleichzeitig im RewardBench-Ranking für reine Text-Belohnungsmodelle eine hervorragende Punktzahl von 90,1. Dies zeigt seine starke Generalisierungsfähigkeit in multimodalen und Text-Aufgaben.
Der MPO-Mechanismus löst durch die Einführung mehrerer gemeinsam optimierter Verlustfunktionen das Problem der „Verbesserung der Tiefeninferenz“ und der „Aufrechterhaltung der allgemeinen Fähigkeiten“ beim Training großer Modelle. R1V2.0 nutzt die vom Skywork-VL Reward bereitgestellten Präferenzsignale, um die Modelloptimierung auf Präferenzkonsistenz auszurichten und so sicherzustellen, dass das Modell eine gute allgemeine Anpassungsfähigkeit in verschiedenen Aufgaben und Bereichen aufweist. Darüber hinaus verwendet R1V2.0 beim Trainieren der Tiefeninferenzfähigkeit die regelbasierte relative Strategieoptimierung GRPO. Durch den relativen Belohnungsvergleich zwischen Kandidatenantworten innerhalb derselben Gruppe wird das Modell dazu angeleitet, genauere Auswahl- und Inferenzpfade zu erlernen.
Kontinuierliche Open-Source-Veröffentlichung zur Förderung der Entwicklung von AGI
Kunlun Wanwei setzt sich kontinuierlich für die Förderung von Open Source und Innovationen im Bereich der künstlichen Intelligenz ein. Die Open-Source-Veröffentlichung von R1V2.0 ist ein wichtiger Meilenstein von Kunlun Wanwei im Multimodalbereich. Die 38B-Gewichte und der vollständige technische Bericht des Modells wurden auf Hugging Face und GitHub vollständig als Open Source veröffentlicht, sodass Entwickler frei auf diese Ressourcen zugreifen und sie verwenden können.
Kunlun Wanwei erklärt, dass Open Source Innovationen vorantreibt und AGI letztendlich kommen wird. R1V2.0 hat nicht nur die Grenzen von Open-Source-Multimodal-Large-Language-Modellen erweitert, sondern bietet auch ein neues Basismodell für den Aufbau multimodaler intelligenter Agenten. Zukünftig wird Kunlun Wanwei weiterhin dem Prinzip „Open Source, Offenheit, gemeinsame Entwicklung“ folgen und kontinuierlich führende Large-Language-Modelle und Datensätze veröffentlichen, um Entwickler zu unterstützen, branchenübergreifende Innovationen zu fördern und den Fortschritt der Allgemeinen Künstlichen Intelligenz (AGI) zu beschleunigen.
- Modellgewichte:
Hugging Face - Skywork-R1V2.0-38B
- Code-Repository:
GitHub - SkyworkAI/Skywork-R1V
- Technischer Bericht:
https://arxiv.org/abs/2504.16656