El costo de evaluación de modelos de IA de razonamiento se dispara: cerca de 3000 USD para una sola evaluación

AIbase基地

Publicado elNoticias de IA · 4 minutos de lectura · Apr 11, 2025

Según datos de Artificial Analysis, una institución independiente de pruebas de IA, la evaluación del modelo de razonamiento o1 de OpenAI en siete benchmarks populares costó 2.767,05 dólares, mientras que su modelo no razonador GPT-4o solo costó 108,85 dólares. Esta diferencia significativa ha generado un debate sobre la sostenibilidad y la transparencia de la evaluación de la IA.

Los modelos de razonamiento, sistemas de IA capaces de "pensar" paso a paso en la solución de problemas, aunque destacan en áreas específicas, tienen un coste de evaluación en benchmarks mucho mayor que los modelos tradicionales. Artificial Analysis estimó que la evaluación de una docena de modelos de razonamiento costó un total de 5.200 dólares, casi el doble del coste de analizar más de 80 modelos no razonadores (2.400 dólares).

Robot Inteligencia Artificial IA

Nota de la fuente: Imagen generada por IA, proveída por Midjourney.

La diferencia de costes se debe principalmente a la gran cantidad de tokens generados por los modelos de razonamiento. Por ejemplo, o1 generó más de 44 millones de tokens en las pruebas, aproximadamente ocho veces más que GPT-4o. A medida que las pruebas se vuelven más complejas y evalúan la capacidad de realizar tareas del mundo real, junto con el aumento del coste por token de los modelos de primer nivel (como el o1-pro de OpenAI, que cobra 600 dólares por millón de tokens de salida), la verificación independiente del rendimiento de estos modelos se vuelve extremadamente costosa.

Aunque algunos laboratorios de IA ofrecen acceso gratuito o subvencionado a las instituciones de evaluación comparativa, los expertos temen que esto pueda perjudicar la objetividad de las evaluaciones. Ross Taylor, CEO de General Reasoning, cuestiona: "¿Desde un punto de vista científico, si publicas un resultado que nadie puede replicar con el mismo modelo, ¿puede considerarse ciencia?"

modelos de razonamiento GPT-4 costo de evaluación de IA Midjourney

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Noticias de IA relacionadas recomendadas

Qwen VLo, el modelo de comprensión y generación multimodal unificado de Tongyi Qianwen

Recientemente, se lanzó oficialmente el modelo de gran dimensión multimodal Qwen VLo, logrando avances significativos en la comprensión y generación de contenido visual, brindando a los usuarios una nueva experiencia de creación visual. Según información proporcionada, Qwen VLo ha sido completamente actualizado basándose en las ventajas de la serie de modelos Qwen-VL anteriores. Este modelo no solo puede comprender 'el mundo' con precisión, sino que también puede realizar una recreación de alta calidad basada en esa comprensión, logrando así una transición real de la percepción a la generación. Los usuarios ahora pueden utilizar Qwen Chat (chat.qwen.ai)

Jun 28, 2025

¡Noticia importante! El primer gran modelo de código abierto en el mar de China, Cangyuan, ha aparecido, impulsando la era de la inteligencia oceánica

El primer modelo grande de código abierto en el ámbito marino de China, OceanGPT (Cangyuan), fue oficialmente lanzado en Hangzhou, Zhejiang. Este logro innovador fue desarrollado liderado por el Laboratorio Nacional de Tecnología de Percepción Oceánica Precisa de la Universidad de Zhejiang, marcando un importante paso adelante en el campo de la tecnología oceánica de China. OceanGPT tiene la capacidad básica de responder preguntas sobre conocimientos oceánicos, y puede interpretar datos multimodales como imágenes de sonar y mapas de observación oceánica mediante lenguaje natural. Esta habilidad permite que OceanGPT se desempeñe bien al manejar datos oceánicos complejos. Este modelo también utiliza

Jun 27, 2025

460

Suno adquiere WavTool para fortalecer sus herramientas de edición de música con IA en medio de controversias sobre derechos de autor musicales

La empresa de música con inteligencia artificial Suno anunció el jueves que adquirió WavTool, una estación de trabajo digital basada en navegador (DAW) con inteligencia artificial. El objetivo es mejorar las capacidades de edición de Suno en la creación y producción de canciones. WavTool fue lanzado en 2023 y ofrece diversas funciones, incluida la separación de audio, generación de audio con IA y asistentes de música con IA. Se espera que se integre con la nueva interfaz de edición de Suno. Aunque los términos exactos de la adquisición no han sido revelados, un portavoz de la empresa comentó

Jun 27, 2025

410

Diario de IA del 27 de junio: Tencent libera como código abierto el modelo Huyuan-A13B ligero; Keling AI lanzará una función de efectos de sonido para videos

¡Bienvenido a la sección 【Diario de IA】 de AIbase! Tres minutos al día para conocer las principales noticias del día sobre IA, ayuda a comprender las tendencias del sector de la IA y las aplicaciones innovadoras de productos de IA. Más información sobre IA en: https://www.aibase.com/zh1. El modelo Huyuan-A13B ligero de Tencent se libera como código abierto, se puede implementar con una sola tarjeta de GPU de gama media o baja. Tencent ha lanzado un nuevo miembro de la familia de modelos de gran tamaño Huyuan, el modelo Huyuan-A13B, que utiliza una arquitectura de mezcla de expertos (MoE), con un tamaño total de parámetros de 80 mil millones y 13 mil millones de parámetros activados, grandes

Jun 27, 2025

Se revela la lista de unicornios globales! SpaceX, ByteDance y OpenAI se llevan los primeros puestos

Jun 27, 2025

Tencent libera un modelo ligero de HuanYuan-A13B, se puede implementar con una sola tarjeta GPU de gama media-baja

Tencent presenta oficialmente y libera un nuevo miembro de la familia de modelos grandes HuanYuan: el modelo HuanYuan-A13B. Este modelo utiliza una arquitectura basada en expertos mezclados (MoE), con un tamaño total de parámetros de 80 mil millones y parámetros activados de 13 mil millones. Mantiene el rendimiento de los modelos de código abierto de vanguardia, pero reduce significativamente el retraso de razonamiento y los costos computacionales, ofreciendo una solución de IA más rentable para desarrolladores individuales y pequeñas y medianas empresas.

Jun 27, 2025

Ling AI introduce una función de efectos de sonido para video, ofreciendo una experiencia inmersiva de ver y escuchar

Jun 27, 2025

¡Sorpresa total! Anthropic destruyó millones de libros para entrenar a la IA, ¡la disputa por derechos de autor se agrava!

Jun 27, 2025

OpenAI anuncia que el evento para desarrolladores de 2025 se celebrará en San Francisco y se espera que atraiga a más de 1500 desarrolladores

OpenAI ha anunciado oficialmente la fecha y lugar de su próxima convención para desarrolladores (DevDay), que tendrá lugar el 6 de octubre de 2025 en San Francisco. Este evento se espera que atraiga a más de 1500 desarrolladores y será el más grande hasta ahora. La agenda del DevDay incluirá múltiples actividades importantes. Habrá discursos temáticos en vivo, donde se compartirán las últimas actualizaciones y visión futura de OpenAI en el campo de la inteligencia artificial. Además, los participantes podrán

Jun 27, 2025

Google lanza una aplicación experimental de IA para probar ropa virtual: Doppl, una nueva experiencia de moda

Google lanzó esta semana una nueva aplicación experimental llamada Doppl en las plataformas iOS y Android en Estados Unidos, con el objetivo de mostrar a los usuarios cómo se verían diferentes prendas puestas en ellos mismos mediante tecnología de inteligencia artificial. Esta aplicación utiliza la inteligencia artificial para generar imágenes virtuales de los usuarios usando ropa, e incluso puede convertir imágenes estáticas en videos dinámicos, brindando a los usuarios una experiencia inmersiva de prueba de ropa. La función principal de Doppl permite a los usuarios cargar fotos de su cuerpo completo y luego importar fotos o capturas de pantallas de ropa para probarla en su versión digital.

Jun 27, 2025

Noticias de IA

IA Diario

Cronología de la IA

Al hardware

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General

El costo de evaluación de modelos de IA de razonamiento se dispara: cerca de 3000 USD para una sola evaluación

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

Qwen VLo, el modelo de comprensión y generación multimodal unificado de Tongyi Qianwen

¡Noticia importante! El primer gran modelo de código abierto en el mar de China, Cangyuan, ha aparecido, impulsando la era de la inteligencia oceánica

Suno adquiere WavTool para fortalecer sus herramientas de edición de música con IA en medio de controversias sobre derechos de autor musicales

Diario de IA del 27 de junio: Tencent libera como código abierto el modelo Huyuan-A13B ligero; Keling AI lanzará una función de efectos de sonido para videos

Se revela la lista de unicornios globales! SpaceX, ByteDance y OpenAI se llevan los primeros puestos

Tencent libera un modelo ligero de HuanYuan-A13B, se puede implementar con una sola tarjeta GPU de gama media-baja

Ling AI introduce una función de efectos de sonido para video, ofreciendo una experiencia inmersiva de ver y escuchar

¡Sorpresa total! Anthropic destruyó millones de libros para entrenar a la IA, ¡la disputa por derechos de autor se agrava!

OpenAI anuncia que el evento para desarrolladores de 2025 se celebrará en San Francisco y se espera que atraiga a más de 1500 desarrolladores

Google lanza una aplicación experimental de IA para probar ropa virtual: Doppl, una nueva experiencia de moda