Le 24 avril, Kunlun Wanwei a annoncé la publication en open source de son modèle d'inférence multimodale Skywork-R1V2.0 (ci-après R1V2.0). Cette version améliorée a considérablement amélioré ses capacités d'inférence visuelle et textuelle, notamment dans le raisonnement approfondi des problèmes scientifiques difficiles du Gaokao et dans les scénarios de tâches générales, faisant de lui le modèle multimodale open source le plus équilibré en termes de capacités de raisonnement visuel et textuel.
La publication en open source de R1V2.0 témoigne non seulement de la puissance technique de Kunlun Wanwei dans le domaine multimodale, mais fournit également aux développeurs et chercheurs du monde entier un outil puissant pour promouvoir le développement de l'écosystème multimodale. Ce modèle a battu des records SOTA open source dans plusieurs tests de référence reconnus, démontrant des capacités comparables à celles des modèles commerciaux fermés.
Amélioration des performances globales, leader sur la scène chinoise
Les performances de R1V2.0 sont particulièrement remarquables dans le contexte chinois, notamment pour l'inférence de problèmes scientifiques (mathématiques, physique, chimie), faisant de lui un assistant de résolution de problèmes IA gratuit. Ce modèle a non seulement obtenu un excellent score de 73,6 points au MMMU, battant le record SOTA open source, mais a également atteint 62,6 points sur Olympiad Bench, surpassant nettement les autres modèles open source. De plus, R1V2.0 a obtenu d'excellents résultats dans plusieurs classements d'inférence visuelle tels que MathVision, MMMU-PRO et MathVista, et plusieurs de ses capacités sont désormais comparables à celles des modèles commerciaux fermés.
En matière d'inférence textuelle, R1V2.0 a obtenu respectivement 78,9 points à l'AIME2024 et 63,6 points à LiveCodeBench, démontrant des capacités de compréhension des mathématiques et du code au niveau d'experts humains. Ces résultats montrent que R1V2.0 excelle non seulement dans l'inférence visuelle, mais aussi dans l'inférence textuelle.
Points forts techniques : modèle de récompense multimodale et optimisation des préférences mixtes
L'amélioration des performances de R1V2.0 est due à plusieurs innovations techniques. Parmi celles-ci, le modèle de récompense multimodale Skywork-VL Reward et le mécanisme d'optimisation des préférences mixtes (MPO) sont les plus remarquables.
Le modèle Skywork-VL Reward fournit des signaux de récompense de haute qualité pour l'apprentissage par renforcement multimodale, permettant d'évaluer précisément la qualité globale des sorties de longues séquences de modèles d'inférence multimodale. Ce modèle a obtenu un score SOTA de 73,1 au classement VL-RewardBench pour les modèles de récompense visuelle, et un score remarquable de 90,1 au classement RewardBench pour les modèles de récompense textuelle pure, démontrant ainsi ses puissantes capacités de généralisation dans les tâches multimodales et textuelles.
Le mécanisme MPO, quant à lui, résout le problème de l'amélioration du « raisonnement approfondi » et du maintien des « capacités générales » dans l'entraînement des grands modèles grâce à l'introduction de plusieurs fonctions de perte optimisées conjointement. R1V2.0 utilise les signaux de préférence fournis par Skywork-VL Reward pour guider l'optimisation de la cohérence des préférences, garantissant ainsi que le modèle possède une bonne capacité d'adaptation générale dans plusieurs tâches et domaines. De plus, lors de l'entraînement de la capacité de raisonnement approfondi, R1V2.0 a adopté la méthode d'optimisation de stratégie relative de groupe basée sur les règles GRPO, qui guide le modèle à apprendre des chemins de sélection et de raisonnement plus précis grâce à la comparaison des récompenses relatives entre les réponses candidates du même groupe.
Open source continu, pour promouvoir le développement de l'AGI
Kunlun Wanwei s'engage à promouvoir l'open source et l'innovation en matière d'intelligence artificielle. La publication en open source de R1V2.0 représente une étape importante pour Kunlun Wanwei dans le domaine multimodale. Les 38 milliards de poids du modèle et le rapport technique complet sont désormais disponibles en open source sur Hugging Face et GitHub, les développeurs pouvant accéder et utiliser librement ces ressources.
Kunlun Wanwei affirme que l'open source stimule l'innovation et que l'AGI finira par arriver. R1V2.0 a non seulement permis de repousser les limites des grands modèles multimodaux open source, mais fournit également un nouveau modèle de base pour la construction d'agents intelligents multimodaux. À l'avenir, Kunlun Wanwei continuera à adopter le principe « open source, ouvert, collaboratif » et lancera continuellement des grands modèles et des ensembles de données de pointe pour aider les développeurs, promouvoir l'innovation collaborative au sein du secteur et accélérer le processus de réalisation de l'intelligence artificielle générale (AGI).
-Poids du modèle :
Hugging Face - Skywork-R1V2.0-38B
-Dépôt de code :
GitHub - SkyworkAI/Skywork-R1V
-Rapport technique :
https://arxiv.org/abs/2504.16656