Récemment, Kuaizhi Wanyi a officiellement lancé son nouveau modèle open source Skywork-R1V3.0, affirmant avoir atteint un niveau sans précédent en raisonnement multimodal, comparable au niveau d'un expert humain junior. Pendant le processus d'entraînement, le modèle a adopté une stratégie d'apprentissage par renforcement, réalisant des progrès significatifs dans la modélisation logique complexe et la généralisation des connaissances interdisciplinaires.
Skywork-R1V3.0 a été « bootstrappé » à partir de la génération précédente Skywork-R1V2.0, en utilisant des données de distillation de haute qualité et des techniques de prélèvement par rejet pour construire efficacement un ensemble d'entraînement puissant pour le raisonnement multimodal. La conception de ce modèle ne se limite pas au texte, mais inclut également le traitement d'images, améliorant ainsi considérablement sa capacité à raisonner entre les images et le texte.
Selon l'introduction, l'entraînement de Skywork-R1V3.0 repose uniquement sur environ 12 000 échantillons de réglage supervisé et 13 000 échantillons d'apprentissage par renforcement, démontrant l'avantage unique de « grande capacité déclenchée par peu de données ». Dans l'évaluation multimodale complète MMMU, Skywork-R1V3.0 a obtenu un score de 76,0, surpassant les modèles non ouverts tels que Claude-3.7-Sonnet (75,0) et GPT-4.5 (74,4), prouvant ainsi sa excellente capacité de compréhension intermodale.
Dans des scénarios d'application spécifiques, Skywork-R1V3.0 a montré des performances excellentes dans plusieurs domaines tels que la physique, la logique et le raisonnement mathématique. Par exemple, dans l'évaluation du raisonnement physique, le modèle a obtenu les meilleurs scores ouverts de 52,8 et 31,5, démontrant sa capacité à comprendre des problèmes physiques complexes. En outre, dans le test de raisonnement logique, Skywork-R1V3.0 a également obtenu un excellent score de 59,7.
Le modèle est également redoutable en matière de raisonnement mathématique, obtenant des scores excellents de 77,1, 59,6 et 52,6 dans des évaluations telles que MathVista, MathVerse et MathVision, surpassant nettement d'autres modèles open source. Ces performances exceptionnelles font de Skywork-R1V3.0 un concurrent solide dans le domaine actuel du raisonnement multimodal open source.
La mise en ligne de Skywork-R1V3.0 marque un nouveau sommet dans la technologie du raisonnement multimodal. Sa performance puissante et son caractère open source favoriseront grandement le développement ultérieur de la technologie de l'intelligence artificielle.