Le 31 août, le Laboratoire de l'intelligence artificielle de Shanghai (Shanghai AI Lab) a annoncé le lancement open source du modèle multimodal de grande taille, InternVL3.5, appelé "Shu Shen - Wanxiang". Ce modèle intègre des innovations telles que l'apprentissage par renforcement en cascade (Cascade RL), la routage de résolution visuelle dynamique et une architecture de déploiement déconnectée, permettant ainsi une amélioration globale de la capacité de raisonnement, de l'efficacité de déploiement et de la généralité. InternVL3.5 propose des versions complètes avec des paramètres allant de 1B à 241B, établissant un nouveau standard pour les modèles open source, atteignant un niveau avancé sur plusieurs tâches.

Le modèle phare d'InternVL3.5, InternVL3.5-241B-A28B, a obtenu le meilleur score parmi les modèles open source sur le référentiel de raisonnement interdisciplinaire MMMU, avec 77,7 points. Sur les benchmarks de perception multimodale MMStar et OCRBench, il a obtenu respectivement 77,9 et 90,7 points, surpassant GPT-5 (75,7/80,7). Sur les benchmarks de raisonnement textuel AIME25 et MMLU-Pro, il a atteint 75,6 et 81,3 points, dépassant largement les modèles multimodaux open source existants. Grâce au cadre d'apprentissage par renforcement en cascade, les performances de raisonnement de l'ensemble de modèles ont augmenté en moyenne de 16,0 points par rapport à la génération précédente. En particulier, le modèle InternVL3.5-241B-A28B a atteint un score de 66,9 points, dépassant le score de 54,6 points du modèle précédent et celui de 53,9 points de Claude-3.7-Sonnet, se distinguant particulièrement dans des tâches complexes comme le raisonnement mathématique et logique.

微信截图_20250901092244.png

Avec l'innovant routage de résolution visuelle (ViR) et le cadre de déploiement déconnecté (DvD), la vitesse de réponse du modèle de 38B a considérablement augmenté à une résolution de 896, le délai de calcul unique passant de 369 ms à 91 ms (une amélioration d'environ 4 fois). En même temps, le modèle InternVL3.5-Flash, léger, maintient un niveau de performance proche de 100 % tout en réduisant de 50 % la longueur de la séquence visuelle.

InternVL3.5 a également renforcé les capacités essentielles des agents intelligents, notamment les agents GUI, les agents incarnés, la compréhension et la génération des graphiques SVG. Il a surpassé les modèles open source dominants sur des tâches comme la localisation GUI ScreenSpot (92,9 points), le raisonnement spatial VSI-Bench (69,5 points) et la compréhension des graphiques vectoriels SGP-Bench (70,6 points).

InternVL3.5 propose neuf modèles avec des paramètres allant de 1 milliard à 2 410 milliards, couvrant divers scénarios de besoins en ressources, incluant des modèles denses et des modèles mixtes experts (MoE). C'est le premier modèle multimodal open source à soutenir le modèle de base de langage GPT-OSS. Le site officiel fournit un exemple de code pour exécuter le modèle InternVL3.5-8B avec `transformers`. Le modèle peut être déployé sur une seule carte GPU A100, tandis qu'un modèle de 38B nécessite deux cartes GPU A100, et un modèle de 235B nécessite huit cartes GPU A100.

ms-swift prend déjà en charge l'entraînement des modèles de la série InternVL3.5. ms-swift est un cadre d'entraînement et de déploiement de grands modèles et de modèles multimodaux fourni par la communauté MoDa. Les utilisateurs peuvent préparer leurs données sous une forme spécifique pour effectuer un fine-tuning sur leur propre jeu de données. Après l'entraînement, ils peuvent utiliser des commandes appropriées pour effectuer des inférences et envoyer le modèle vers ModelScope.

La publication d'InternVL3.5 marque une autre avancée importante dans les technologies de grands modèles multimodaux, offrant aux chercheurs et développeurs des outils puissants et favorisant le développement de l'intelligence artificielle multimodale.

Méthode d'utilisation du code open source / du modèle :

https://github.com/OpenGVLab/InternVL

Ensemble de modèles :

https://www.modelscope.cn/collections/InternVL35-Full-3871e58bf21349

Expérience en ligne :

https://chat.intern-ai.org.cn/