Kurz vor kurz hat Kuaizhi Wanyi sein neues Open-Source-Modell Skywork-R1V3.0 offiziell vorgestellt und behauptet, einen bisher unerreichten Level im multimodalen Denken erreicht zu haben, der dem eines menschlichen Junior-Experten entspricht. Während des Trainings hat das Modell eine Strategie des Verstärkungslernens verwendet und bedeutende Fortschritte in der Modellierung komplexer Logik und der Allgemeinheit interdisziplinärer Kenntnisse erzielt.

Skywork-R1V3.0 wurde aus der vorherigen Generation Skywork-R1V2.0 „bootstrapped“, indem hochwertige Daten zur Distillation und Techniken zum Abstumpfen verwendet wurden, um effektiv ein leistungsstarkes Trainingsset für multimodales Denken zu bilden. Die Gestaltung dieses Modells beschränkt sich nicht auf Text, sondern umfasst auch Bildverarbeitung, wodurch seine Fähigkeit, zwischen Bildern und Text zu denken, erheblich verbessert wurde.

image.png

Laut der Einleitung basiert das Training von Skywork-R1V3.0 nur auf etwa 12.000 überwachten Anpassungsbeispielen und 13.000 Verstärkungslernbeispielen, was die einzigartige Stärke von „großer Kapazität mit wenig Daten“ unterstreicht. In der vollständigen multimodalen Bewertung MMMU erreichte Skywork-R1V3.0 einen Score von 76,0, was andere nicht-offene Modelle wie Claude-3.7-Sonnet (75,0) und GPT-4.5 (74,4) übertraf und somit seine hervorragende Fähigkeit zur intermodalen Verständigung bewies.

In spezifischen Anwendungsszenarien zeigte Skywork-R1V3.0 ausgezeichnete Leistungen in verschiedenen Bereichen wie Physik, Logik und mathematischem Denken. Zum Beispiel erreichte das Modell bei der Bewertung des physikalischen Denkens die besten offenen Ergebnisse von 52,8 und 31,5, was seine Fähigkeit zeigt, komplexe physikalische Probleme zu verstehen. Darüber hinaus erreichte Skywork-R1V3.0 bei dem Logik- und Denktest auch einen exzellenten Score von 59,7.

image.png

Das Modell ist auch äußerst stark im mathematischen Denken und erreichte exzellente Ergebnisse von 77,1, 59,6 und 52,6 in Bewertungen wie MathVista, MathVerse und MathVision, deutlich überlegend andere open-source-Modelle. Diese außergewöhnlichen Leistungen machen Skywork-R1V3.0 zu einem starken Konkurrenten im aktuellen Bereich des offenen multimodalen Denkens.

image.png

Die Veröffentlichung von Skywork-R1V3.0 markiert einen neuen Höhepunkt in der Technologie des multimodalen Denkens. Seine starke Leistung und die Offenheit werden den weiteren Entwicklungen der KI-Technologie sehr zugutekommen.