Según los resultados más recientes de las pruebas del premio ARC, hay diferencias significativas en el rendimiento y el costo de los modelos de IA principales. En la prueba ARC-AGI-2, que evalúa la capacidad general de razonamiento del modelo, el puntaje de GPT-5 (Avanzado) es del 9,9%, con un costo de 0,73 dólares por tarea. Por otro lado, Grok4 (Pensante) obtuvo un mejor desempeño, alcanzando una precisión del 16%, pero su costo también es mayor, con un precio de entre 2 y 4 dólares por tarea. Esto indica que, en tareas de razonamiento complejas, Grok4 tiene una ventaja en rendimiento, pero su relación costo-beneficio es mucho peor que la de GPT-5.

QQ20250808-092121.png

Comparación del rendimiento y el costo de los modelos de lenguaje líderes en la base de prueba ARC-AGI. | Imagen: ARC-AGI

En la prueba ARC-AGI-1, que requiere menos exigencias, Grok4 volvió a liderar con una precisión del 68%, ligeramente por encima del 65,7% de GPT-5. Aunque la precisión de Grok4 es mayor, su costo por tarea de aproximadamente 1 dólar es mucho mayor que los 0,51 dólares de GPT-5, lo que hace que GPT-5 sea más rentable en esta prueba. Sin embargo, xAI podría ajustar los precios para reducir esta brecha.

Además, el informe mencionó una versión ligera de GPT-5. GPT-5Mini obtuvo puntajes de 54,3% y 4,4% en AGI-1 y AGI-2, respectivamente, con costos de 0,12 y 0,20 dólares. El modelo aún más pequeño, GPT-5Nano, alcanzó un 16,5% (0,03 dólares) en AGI-1 y un 2,5% (0,03 dólares) en AGI-2.

QQ20250808-092136.png

Resultados de la prueba ARC-AGI-1 para Grok4, GPT-5 y sus variantes más pequeñas. | Imagen: Premio ARC

Destaca que, en la prueba ARC-AGI-1, el modelo o3-preview, lanzado en diciembre de 2024, lideró con una impresionante precisión del 80%, pero su costo supera ampliamente al de otros competidores. Aunque OpenAI no mencionó el premio ARC en su demostración de GPT-5, según The Information, la empresa probablemente haya reducido drásticamente las capacidades de o3-preview para adaptarlas a versiones posteriores de chat.

Además de las pruebas mencionadas anteriormente, está en curso la prueba ARC-AGI-3, que exige que el modelo resuelva tareas en un entorno interactivo similar a un juego mediante pruebas repetidas. Aunque los humanos pueden manejarlo fácilmente, la mayoría de los agentes de IA aún enfrentan dificultades en juegos de ingenio visuales.