Un estudio reciente revela que incluso los modelos de lenguaje AI avanzados, como el o1-preview de OpenAI, tienen dificultades con tareas de planificación complejas.

Esta investigación, realizada conjuntamente por científicos de la Universidad de Fudan, la Universidad Carnegie Mellon, ByteDance y la Universidad Estatal de Ohio, evaluó el rendimiento de los modelos de IA en dos benchmarks de planificación: BlocksWorld y TravelPlanner.

Inteligencia artificial, IA, cerebro humano, futuro

En BlocksWorld, una tarea de planificación clásica, la mayoría de los modelos tuvieron una precisión inferior al 50%, con o1-mini (ligeramente inferior al 60%) y o1-preview (cerca del 100%) mostrando un rendimiento relativamente mejor.

Sin embargo, al pasar a TravelPlanner, una tarea más compleja, el rendimiento de todos los modelos fue decepcionante. GPT-4o logró una tasa de éxito final del 7,8%, mientras que o1-preview alcanzó el 15,6%. Otros modelos como GPT-4o-Mini, Llama3.1 y Qwen2 obtuvieron puntuaciones entre el 0 y el 2,2%. Aunque o1-preview superó a GPT-4o, aún está lejos de la capacidad de planificación humana.

Los investigadores destacaron dos problemas principales. Primero, los modelos mostraron una deficiencia en la integración de reglas y condiciones, lo que llevó a que sus planes a menudo violaran las directrices preestablecidas. Segundo, a medida que aumentaba el tiempo de planificación, perdían gradualmente el enfoque en el problema original. Para medir la influencia de diferentes componentes de entrada en el proceso de planificación, el equipo de investigación utilizó un método de "importancia de características de permutación".

Además, el equipo probó dos estrategias comunes para mejorar la capacidad de planificación de la IA. La primera consistió en utilizar actualizaciones de memoria episódica, obteniendo conocimiento de intentos de planificación anteriores. Esto mejoró la comprensión de las restricciones, pero no condujo a una consideración más detallada de las reglas individuales. La segunda fue la actualización de memoria paramétrica, mejorando la influencia de la tarea en la planificación mediante el ajuste fino. Sin embargo, a medida que se alargaba la planificación, el problema central —la disminución de la influencia— persistía. Ambas estrategias mostraron mejoras, pero no resolvieron completamente el problema fundamental.

Cabe mencionar que el código y los datos relacionados con la investigación se publicarán próximamente en GitHub.

Enlace al código: https://github.com/hsaest/Agent-Planning-Analysis

Puntos clave:

🌍 La investigación muestra que los modelos de IA como el o1-preview de OpenAI tienen un rendimiento deficiente en la planificación de viajes complejos, con una tasa de éxito del 7,8% para GPT-4o.

📉 La mayoría de los modelos mostraron un rendimiento aceptable en BlocksWorld, pero en TravelPlanner no lograron resultados satisfactorios.

🧠 El estudio revela que los modelos presentan principalmente problemas de integración insuficiente de reglas y pérdida de enfoque con el tiempo.