En un contexto de creciente competencia en inteligencia artificial a nivel mundial, el equipo de Shanghai Jiao Tong University y DeepEffect Technology logró un sorprendente puntaje de 32.1 en un desafío conocido como "Último examen humano" (HLE), rompiendo por primera vez la barrera de los 30 puntos. Este conjunto de pruebas es famoso por su alta dificultad, ya que antes ningún modelo superó los 10 puntos, e incluso recientemente, el puntaje más alto fue de 26,9 puntos, logrado conjuntamente por Kimi-Research y Gemini Deep Research.

Este estudio presentó una inteligencia racional con herramientas X-Master y un sistema de flujo de trabajo multiagente X-Masters. Esta solución no solo destaca técnicamente, sino que también se ha hecho pública, impulsando así la colaboración y el desarrollo en el campo de la IA.

image.png

La filosofía central de X-Master radica en simular el proceso dinámico de resolución de problemas de un investigador humano, pudiendo cambiar sin problemas entre razonamiento interno y herramientas externas. Cuando enfrenta un problema que no puede resolver, X-Master escribe el plan de acción en código, lo ejecuta mediante diversas herramientas (como NumPy y SciPy) y vuelve a integrar los resultados en el sistema de conocimiento del agente. Este proceso forma un ciclo de retroalimentación eficiente, permitiendo que el agente optimice continuamente su proceso de razonamiento.

El diseño de X-Masters es aún más complejo, utilizando un flujo de trabajo de agentes distribuidos - apilados, lo que mejora la amplitud y profundidad del razonamiento. En la etapa de distribución, varios solucionadores trabajan en paralelo, generando diferentes soluciones, mientras que un agente crítico evalúa y mejora las soluciones. Luego, un agente reescritor sintetiza todas las salidas en una solución más óptima, y finalmente un agente seleccionador elige la mejor respuesta.

En esta prueba, X-Masters destacó especialmente en categorías de biología/medicina, superando a los sistemas existentes de agentes, demostrando su gran capacidad para resolver problemas complejos.

"Último examen humano" fue lanzado a principios de este año por el Centro de Seguridad de la Inteligencia Artificial y Scale AI, con el objetivo de evaluar el nivel de inteligencia de los sistemas de IA. Las preguntas provienen de más de 500 instituciones y 1000 académicos, siendo de un nivel muy alto.