Das Team von Jieyue Xingchen Technology gibt die offizielle Einführung seines neuen multimodalen Inferenzmodells Step-R1-V-Mini bekannt. Die Veröffentlichung dieses Modells markiert einen Durchbruch im Bereich der multimodalen kooperativen Inferenz und verleiht der Weiterentwicklung der KI-Technologie neue Impulse. Step-R1-V-Mini unterstützt Bild- und Text-Eingaben sowie Textausgaben, verfügt über eine gute Fähigkeit zur Anweisungsbefolgung und ist vielseitig einsetzbar. Es kann Bilder mit hoher Genauigkeit erfassen und komplexe Inferenzaufgaben bewältigen.

Die Trainingsmethode von Step-R1-V-Mini ist technisch innovativ und verwendet multimodales, gemeinsames Verstärkungslernen. Basierend auf der PPO (Proximal Policy Optimization) Verstärkungslernstrategie wurde im Bildraum ein verifizierbarer Belohnungsmechanismus eingeführt. Dieser Mechanismus löst effektiv die Probleme komplexer Inferenzketten im Bildraum und die damit verbundenen Verwechslungs-, Korrelations- und Kausalitätsfehler bei der Inferenz. Im Vergleich zu Methoden wie DPO (Direct Preference Optimization) ist Step-R1-V-Mini bei der Verarbeitung komplexer Ketten im Bildraum generalisierbarer und robuster.

微信截图_20250409085809.png

Um multimodale synthetische Daten optimal zu nutzen, hat Jieyue Xingchen zahlreiche multimodale Daten syntheseketten entwickelt, die auf Umgebungsrückmeldungen basieren. Dies ermöglichte die Synthese von multimodalen Inferenzdaten, die für ein skalierbares Training geeignet sind. Durch das PPO-basierte Verstärkungslernen wurde die Text- und visuelle Inferenzfähigkeit des Modells gleichzeitig verbessert, wodurch das Problem des „Seesaw-Effekts“ während des Trainings effektiv vermieden wurde.

Im Bereich der visuellen Inferenz erzielte Step-R1-V-Mini bemerkenswerte Ergebnisse. In mehreren öffentlichen Rankings schnitt Step-R1-V-Mini hervorragend ab, insbesondere im MathVision-Ranking für visuelle Inferenz, wo es den ersten Platz in China belegte. Dies zeigt, dass das Modell überragende Leistungen in den Bereichen visuelle Inferenz, mathematische Logik und Code besitzt.

Die praktischen Anwendungsbeispiele von Step-R1-V-Mini zeigen seine Leistungsfähigkeit. Beispielsweise kann Step-R1-V-Mini im Anwendungsfall „Bilderkennung von Orten“ anhand eines vom Benutzer aufgenommenen Bildes des Wembley-Stadions die Elemente im Bild schnell erkennen, verschiedene Elemente wie Farben und Objekte (Stadion, Manchester City-Logo) kombinieren und den Ort als Wembley-Stadion korrekt identifizieren und mögliche gegnerische Mannschaften angeben. Im Anwendungsfall „Bilderkennung von Rezepten“ kann Step-R1-V-Mini anhand eines Fotos von einem Gericht die Gerichte und Saucen genau erkennen und die genauen Mengenangaben auflisten, z. B. „300 g Garnelen, 2 weiße Frühlingszwiebeln“. Im Anwendungsfall „Zählen von Objekten“ kann Step-R1-V-Mini anhand eines Bildes mit unterschiedlich geformten, farbigen und positionierten Objekten diese einzeln erkennen, anhand von Farbe, Form und Position eine Inferenzberechnung durchführen und die Anzahl der verbleibenden Objekte ermitteln.

Die Veröffentlichung von Step-R1-V-Mini bietet neue Hoffnung für den Bereich der multimodalen Inferenz. Das Modell ist jetzt offiziell auf der Jieyue AI-Website verfügbar und wird über die Jieyue Xingchen Open Platform als API-Schnittstelle für Entwickler und Forscher bereitgestellt. Jieyue Xingchen gibt an, dass Step-R1-V-Mini ein Zwischenergebnis seiner Arbeit im Bereich der multimodalen Inferenz ist und dass zukünftig die Forschung an Inferenzmodellen fortgesetzt wird, um die Weiterentwicklung der KI-Technologie voranzutreiben.

Jieyue AI Webseite:

https://yuewen.cn/chats/new

Jieyue Xingchen Open Platform:

https://platform.stepfun.com/docs/llm/reasoning