Los modelos grandes multimodales (MLLM) están mostrando gradualmente un gran potencial para resolver problemas complejos. Sin embargo, estos modelos a menudo parecen "rígidos" al manejar razonamientos complejos, careciendo de capacidad de reflexión, lo que hace que tengan dificultades para retroceder cuando enfrentan desafíos que requieren múltiples intentos. Para resolver este problema, un equipo de investigación de la Universidad de Ciencia y Tecnología de Shanghai y el Laboratorio de Inteligencia Artificial de Shanghai ha lanzado un proyecto innovador llamado MM-HELIX, con el objetivo de permitir que la IA aprenda a realizar razonamiento reflexivo como lo haría un ser humano.
MM-HELIX no es solo un proyecto, sino también un ecosistema integral. El equipo primero construyó un conjunto de pruebas llamado "Examen Final" dentro de MM-HELIX, diseñado para evaluar la capacidad de razonamiento reflexivo de los modelos grandes multimodales. Este conjunto de pruebas incluye 42 tareas altamente complejas, abarcando campos como algoritmos, teoría de grafos, acertijos y juegos estratégicos. Los resultados de las pruebas indicaron que incluso los modelos más avanzados tienen una baja precisión, especialmente en el caso de entradas multimodales, donde su desempeño es aún peor. Este resultado subraya claramente la importancia de mejorar la capacidad de reflexión de la IA.

Para ayudar a los modelos grandes multimodales a aprender mejor la reflexión, el equipo también creó un conjunto de datos llamado MM-HELIX-100K, que contiene 100.000 muestras de alta calidad, con el propósito de enseñar a los modelos cómo reflexionar y revisar sus pasos mediante un proceso llamado "Generación de Respuesta Heurística por Pasos" (SERG). Este proceso redujo significativamente el tiempo de resolución de problemas y eliminó eficazmente el pensamiento redundante innecesario.

Además, el equipo propuso un algoritmo de optimización de estrategia híbrida adaptativa (AHPO), utilizado como tutor inteligente, que ayuda al modelo a pasar progresivamente de depender de la guía de expertos a explorar por sí mismo durante el aprendizaje. Este mecanismo de enseñanza dinámica permite al modelo mejorar continuamente su precisión, al mismo tiempo que desarrolla la capacidad de pensar de forma independiente.
Gracias a estas innovaciones, el modelo Qwen2.5-VL-7B equipado con MM-HELIX mejoró su precisión en un 18,6% en las pruebas estándar. Este avance no solo rompió el cuello de botella del modelo original, sino que también demostró la gran capacidad de generalización de la habilidad de reflexión, probando así la importancia significativa de este proyecto para el desarrollo de la IA.





