Según datos de Artificial Analysis, una institución independiente de pruebas de IA, la evaluación del modelo de razonamiento o1 de OpenAI en siete benchmarks populares costó 2.767,05 dólares, mientras que su modelo no razonador GPT-4o solo costó 108,85 dólares. Esta diferencia significativa ha generado un debate sobre la sostenibilidad y la transparencia de la evaluación de la IA.
Los modelos de razonamiento, sistemas de IA capaces de "pensar" paso a paso en la solución de problemas, aunque destacan en áreas específicas, tienen un coste de evaluación en benchmarks mucho mayor que los modelos tradicionales. Artificial Analysis estimó que la evaluación de una docena de modelos de razonamiento costó un total de 5.200 dólares, casi el doble del coste de analizar más de 80 modelos no razonadores (2.400 dólares).
Nota de la fuente: Imagen generada por IA, proveída por Midjourney.
La diferencia de costes se debe principalmente a la gran cantidad de tokens generados por los modelos de razonamiento. Por ejemplo, o1 generó más de 44 millones de tokens en las pruebas, aproximadamente ocho veces más que GPT-4o. A medida que las pruebas se vuelven más complejas y evalúan la capacidad de realizar tareas del mundo real, junto con el aumento del coste por token de los modelos de primer nivel (como el o1-pro de OpenAI, que cobra 600 dólares por millón de tokens de salida), la verificación independiente del rendimiento de estos modelos se vuelve extremadamente costosa.
Aunque algunos laboratorios de IA ofrecen acceso gratuito o subvencionado a las instituciones de evaluación comparativa, los expertos temen que esto pueda perjudicar la objetividad de las evaluaciones. Ross Taylor, CEO de General Reasoning, cuestiona: "¿Desde un punto de vista científico, si publicas un resultado que nadie puede replicar con el mismo modelo, ¿puede considerarse ciencia?"