Les modèles d'intelligence artificielle multimodaux (MLLM) montrent progressivement un grand potentiel pour résoudre des problèmes complexes. Cependant, ces modèles sont souvent "rigides" lorsqu'ils traitent des raisonnements complexes, manquant de capacité à réfléchir, ce qui les empêche de revenir en arrière face à des défis nécessitant plusieurs essais. Pour résoudre ce problème, une équipe de recherche de l'Université de Shanghai Jiao Tong et du laboratoire de l'intelligence artificielle de Shanghai a lancé un projet innovant appelé MM-HELIX, visant à faire apprendre aux IA à raisonner de manière réflexive comme les humains.
MM-HELIX n'est pas seulement un projet, mais aussi un écosystème complet. L'équipe a d'abord construit un benchmark appelé « salle d'examen ultime », qui évalue la capacité des modèles d'intelligence artificielle multimodaux à raisonner de manière réflexive. Ce benchmark implique 42 tâches extrêmement complexes, couvrant des domaines tels que les algorithmes, la théorie des graphes, les énigmes et les jeux stratégiques. Les résultats montrent que même les modèles les plus performants ont des taux d'exactitude faibles, surtout lorsqu'ils traitent des entrées multimodales. Ces résultats soulignent clairement l'importance d'améliorer la capacité de réflexion des IA.

Pour aider les modèles d'intelligence artificielle multimodaux à mieux apprendre à réfléchir, l'équipe a également développé un ensemble de données appelé MM-HELIX-100K, comprenant 100 000 échantillons de haute qualité, conçu pour enseigner aux modèles comment réfléchir et analyser leurs erreurs via un processus appelé « génération de réponse heuristique étape par étape » (SERG). Ce processus réduit considérablement le temps de résolution des problèmes et diminue efficacement les pensées redondantes inutiles.

En outre, l'équipe a proposé un algorithme d'optimisation de stratégie mixte adaptative (AHPO), qui agit comme un mentor intelligent, aidant les modèles à passer progressivement de l'expertise humaine à l'exploration autonome pendant leur apprentissage. Ce mécanisme pédagogique dynamique permet aux modèles d'améliorer continuellement leur précision tout en développant leur capacité à penser indépendamment.
Avec ces innovations, le modèle Qwen2.5-VL-7B équipé de MM-HELIX a vu son taux d'exactitude augmenter de 18,6 % sur le benchmark. Cette amélioration a non seulement surmonté les limites du modèle initial, mais a également démontré une grande généralisation de la capacité de réflexion, prouvant ainsi l'importance majeure de ce projet pour le développement de l'intelligence artificielle.






