Kunlun Wildfire stellt Skywork-R1V 3.0 vor: Kreuzmodale Denkfähigkeiten nähern sich den Fähigkeiten menschlicher Experten!

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 4 Minuten Lesezeit · Jul 9, 2025

19.6k

Kurz vor kurz hat Kuaizhi Wanyi sein neues Open-Source-Modell Skywork-R1V3.0 offiziell vorgestellt und behauptet, einen bisher unerreichten Level im multimodalen Denken erreicht zu haben, der dem eines menschlichen Junior-Experten entspricht. Während des Trainings hat das Modell eine Strategie des Verstärkungslernens verwendet und bedeutende Fortschritte in der Modellierung komplexer Logik und der Allgemeinheit interdisziplinärer Kenntnisse erzielt.

Skywork-R1V3.0 wurde aus der vorherigen Generation Skywork-R1V2.0 „bootstrapped“, indem hochwertige Daten zur Distillation und Techniken zum Abstumpfen verwendet wurden, um effektiv ein leistungsstarkes Trainingsset für multimodales Denken zu bilden. Die Gestaltung dieses Modells beschränkt sich nicht auf Text, sondern umfasst auch Bildverarbeitung, wodurch seine Fähigkeit, zwischen Bildern und Text zu denken, erheblich verbessert wurde.

Laut der Einleitung basiert das Training von Skywork-R1V3.0 nur auf etwa 12.000 überwachten Anpassungsbeispielen und 13.000 Verstärkungslernbeispielen, was die einzigartige Stärke von „großer Kapazität mit wenig Daten“ unterstreicht. In der vollständigen multimodalen Bewertung MMMU erreichte Skywork-R1V3.0 einen Score von 76,0, was andere nicht-offene Modelle wie Claude-3.7-Sonnet (75,0) und GPT-4.5 (74,4) übertraf und somit seine hervorragende Fähigkeit zur intermodalen Verständigung bewies.

In spezifischen Anwendungsszenarien zeigte Skywork-R1V3.0 ausgezeichnete Leistungen in verschiedenen Bereichen wie Physik, Logik und mathematischem Denken. Zum Beispiel erreichte das Modell bei der Bewertung des physikalischen Denkens die besten offenen Ergebnisse von 52,8 und 31,5, was seine Fähigkeit zeigt, komplexe physikalische Probleme zu verstehen. Darüber hinaus erreichte Skywork-R1V3.0 bei dem Logik- und Denktest auch einen exzellenten Score von 59,7.

Das Modell ist auch äußerst stark im mathematischen Denken und erreichte exzellente Ergebnisse von 77,1, 59,6 und 52,6 in Bewertungen wie MathVista, MathVerse und MathVision, deutlich überlegend andere open-source-Modelle. Diese außergewöhnlichen Leistungen machen Skywork-R1V3.0 zu einem starken Konkurrenten im aktuellen Bereich des offenen multimodalen Denkens.

Die Veröffentlichung von Skywork-R1V3.0 markiert einen neuen Höhepunkt in der Technologie des multimodalen Denkens. Seine starke Leistung und die Offenheit werden den weiteren Entwicklungen der KI-Technologie sehr zugutekommen.

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Willkommen im Bereich [KI-Tagesbericht]! Hier ist Ihr Leitfaden, um jeden Tag die Welt der künstlichen Intelligenz zu erkunden. Jeden Tag präsentieren wir Ihnen die Hotspots im KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu erkennen und innovative KI-Produktanwendungen zu verstehen.

—— Erstellt von der AIbase-Tagesberichtgruppe

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Kunlun Wildfire stellt Skywork-R1V 3.0 vor: Kreuzmodale Denkfähigkeiten nähern sich den Fähigkeiten menschlicher Experten!

AIbase基地

Dieser Artikel stammt aus dem AIbase-Tagesbericht