Un nuevo estudio liderado por investigadores de Apple ha lanzado un jarro de agua fría sobre los modelos de razonamiento grandes (LRM) que se están esperanzando actualmente.

El estudio descubrió que, al resolver tareas complejas, modelos de razonamiento diseñados específicamente para "simular procesos de pensamiento", como Claude3.7Thinking y Deepseek-R1, no solo no muestran ventajas, sino que también experimentan problemas graves como "falta de pensamiento" y colapso en el rendimiento.

QQ20250609-091807.png

Esta investigación probó cuatro clásicos acertijos lógicos: la Torre de Hanói, las damas, cruzar el río y el mundo de bloques. Estos acertijos permiten controlar con precisión la complejidad de la tarea, siendo escenarios ideales para medir la capacidad de razonamiento de los modelos de lenguaje. Los resultados mostraron que los LLM estándar tienen una mayor precisión y son más eficientes en tareas simples, mientras que cuando la complejidad aumenta, aunque los modelos de razonamiento mejoran ligeramente su desempeño, finalmente colapsan completamente en situaciones de alta complejidad.

Más sorprendente aún fue que, al enfrentarse a las tareas más complejas, estos modelos no solo redujeron su tasa de éxito a cero, sino que además utilizaron menos marcas de razonamiento (tokens). En otras palabras, su disposición e incluso su capacidad para pensar disminuyeron.

QQ20250609-091816.png

El equipo de investigación dibujó las trayectorias de razonamiento de los modelos en diferentes niveles de complejidad, revelando dos patrones de fracaso típicos: razonamiento excesivo: en problemas sencillos, el modelo sigue generando soluciones incorrectas después de encontrar la respuesta correcta; colapso del razonamiento: en problemas de alta complejidad, el proceso de razonamiento se detiene abruptamente, y ni siquiera se pueden generar rutas de intento.

Aunque los modelos de razonamiento se consideran un paso hacia la inteligencia general artificial (AGI) gracias a mecanismos como las cadenas de razonamiento y la autoreflexión, la investigación de Apple señala que estos mecanismos tienen defectos fundamentales en términos de extensibilidad. Actualmente, los modelos de razonamiento no pueden formular estrategias generalizables, y su "pensamiento" es más bien generativo estadístico que verdadero razonamiento lógico.

QQ20250609-091824.png

La investigación también encontró que el rendimiento de los acertijos está relacionado con los datos de entrenamiento. Por ejemplo, las tareas de la Torre de Hanói, que aparecen más a menudo en los datos de entrenamiento, tuvieron una tasa de precisión generalmente más alta que las tareas de "cruzar el río", de similar complejidad pero con menor frecuencia de datos. Esto destaca la gran dependencia actual de los modelos hacia la distribución de los datos de entrenamiento.

Los investigadores de Apple concluyeron que: "La 'capacidad de pensamiento' de los actuales modelos de razonamiento tiene una asimetría de extensibilidad en relación con la complejidad de la tarea, lo que estructuralmente no puede soportar la resolución de tareas de alto nivel". Recomendaron reconsiderar los principios fundamentales del diseño de los modelos de razonamiento.

Este hallazgo tiene un impacto profundo en la industria. Con los beneficios de la expansión de los modelos de IA alcanzando un punto de estancamiento, la capacidad de razonamiento se considera clave para la próxima revolución de la IA, y varias empresas líderes, incluida OpenAI, han apostado fuerte en esta dirección. Ahora, este estudio nos recuerda que en el camino hacia una verdadera comprensión y razonamiento, la IA todavía enfrenta desafíos técnicos fundamentales.