¡Por fin llegan las fresas! OpenAI lanza el modelo "o1": capacidad de razonamiento que supera a la humana

AIbase基地

Publicado elNoticias de IA · 8 minutos de lectura · Sep 13, 2024

132

OpenAI lanzó oficialmente el jueves su esperado modelo de lenguaje de IA, "o1". Este nuevo modelo, conocido como "Strawberry", afirma tener una mejora significativa en el razonamiento y la resolución de problemas en comparación con los modelos de lenguaje grandes anteriores. La serie de modelos o1 se lanza actualmente en dos versiones: o1-preview y o1-mini, disponibles para los usuarios de ChatGPT Plus y algunos usuarios de la API.

La característica más llamativa de o1 es su proceso de pensamiento antropomórfico. Antes de responder a una pregunta, o1 entra en un modo de pensamiento especial, descomponiendo problemas complejos en varios pasos pequeños que resuelve uno por uno, generando una cadena de pensamiento interna más larga para obtener respuestas más precisas.

Esta técnica, denominada "cálculo en tiempo de prueba" (Test-time computation) por Google DeepMind, se basa en la búsqueda de modelos de recompensa de orientación intensiva y de flujo de trabajo, y en la actualización adaptativa de la distribución de probabilidad de la respuesta del modelo.

Resumen de puntos clave:
Las versiones o1-preview y o1-mini tienen tiempos de respuesta más largos, pensando lentamente como una persona;
La serie o1 está en fase de prueba y solo admite funciones de texto; otras características como la conexión a Internet, la creación de imágenes y la importación de archivos están pendientes de desarrollo;
El desarrollo de prototipos de API está limitado a 20 solicitudes por minuto;
La API carece de soporte para llamadas a funciones, salida en streaming e información del sistema.

¿En qué destaca o1?

OpenAI afirma que o1-preview supera a su predecesor, GPT-4o, en varias pruebas de referencia, incluyendo programación competitiva, matemáticas y "razonamiento científico".

En programación, o1-preview se sitúa en el percentil 89 en problemas de programación competitiva de Codeforces.

En las pruebas de selección de la Olimpiada Matemática de Estados Unidos, el rendimiento de o1 es comparable al de los 500 mejores estudiantes del país. La capacidad matemática de o1 es notable; en el examen de clasificación para la Olimpiada Internacional de Matemáticas, o1-preview obtuvo una puntuación del 83%, mientras que GPT-4o solo obtuvo un 13%.

Más sorprendente aún, o1 superó por primera vez el nivel de un doctor en pruebas de referencia de física, biología y química, lo que marca un avance innovador en la capacidad de razonamiento complejo de la IA.

¿Por qué es tan potente el razonamiento de o1?

El progreso de o1 se debe principalmente a un nuevo método de entrenamiento de aprendizaje por refuerzo. Este método enseña al modelo a dedicar más tiempo a "pensar" antes de responder a las preguntas, similar a las indicaciones de cadena de pensamiento "pensemos paso a paso" en otros modelos de lenguaje grandes. Este proceso permite a o1 probar diferentes estrategias e "identificar" sus propios errores.

OpenAI afirma que continuará desarrollando los modelos o1 y GPT, y planea agregar funciones de navegación web, generación de imágenes y carga de archivos a o1-preview.

Sin embargo, estos datos impresionantes también generan controversia. Algunos usuarios han comentado que o1 no supera a GPT-4o en todos los indicadores.

Además, el tiempo de respuesta más largo debido al procesamiento de varios pasos en segundo plano ha generado algunas críticas. La directora de producto de OpenAI, Joanne Jang, declaró en las redes sociales: "o1 es el primer modelo de razonamiento que destaca en tareas extremadamente difíciles, y solo mejorará. Pero no es un 'modelo milagroso' que supere a los modelos anteriores en todos los aspectos."

Cabe destacar que las pruebas de referencia de IA suelen ser poco fiables y fáciles de manipular. La capacidad real de o1 necesita ser verificada y probada de forma independiente por los usuarios. A principios de este año, un estudio del MIT reveló que algunas afirmaciones de referencia de OpenAI sobre GPT-4 el año pasado fueron erróneas o exageradas.

Además de la mejora del rendimiento, o1 también ha suscitado un debate sobre la capacidad de "razonamiento" de la IA. Algunos expertos en tecnología consideran inapropiado atribuir características humanas como "pensamiento" o "razonamiento" a los modelos de IA.

Información oficial: https://openai.com/index/introducing-openai-o1-preview/

Acceso oficial: https://top.aibase.com/tool/openai-o1

OpenAI ofrece acceso gratuito a la versión ligera de Deep Research o4-mini

OpenAI ha anunciado que su potente herramienta de investigación de IA, Deep Research, estará disponible en una versión ligera gratuita para los usuarios. Esta iniciativa representa un nuevo avance importante en la popularización de la tecnología de IA. Como agente de IA capaz de realizar tareas de investigación complejas de forma autónoma, la disponibilidad gratuita de Deep Research proporcionará a estudiantes, investigadores y usuarios en general un acceso más fácil al conocimiento. Puntos destacados de Deep Research: Nueva experiencia de investigación inteligente. Deep Research es un producto de OpenAI desde el año 2...

清华大学与上海人工智能实验室联合打造新型过程奖励模型，使小型模型超越GPT-4

Investigadores de la Universidad Tsinghua y el Laboratorio de IA de Shanghai han desarrollado un nuevo modelo de recompensa de proceso que permite que los modelos más pequeños superen el rendimiento de GPT-4 en ciertas tareas. Este avance representa un significativo paso adelante en el campo del aprendizaje automático y el procesamiento del lenguaje natural.

Nuevo modelo de código abierto DeepCoder: Programación súper eficiente, supera al modelo o1 de OpenAI

En la ola del desarrollo tecnológico, la inteligencia artificial (IA) está evolucionando rápidamente. Recientemente, el nuevo modelo DeepCoder-14B-Preview, de código abierto y desarrollado conjuntamente por la reconocida plataforma de entrenamiento de grandes modelos Together AI y la plataforma de agentes inteligentes Agentica, ha atraído una gran atención. Con solo 14 mil millones de parámetros, este modelo ha obtenido una puntuación del 60,6% en la plataforma de pruebas de código LiveCodeBench, superando al modelo o1 de OpenAI (59,5%), solo ligeramente...

アリババ国際、AI人材を重点採用：80％の求人がAI関連

アリババ国際は、2026年卒の採用において、人工知能（AI）人材の採用を強化すると発表しました。公式ウェブサイトの情報によると、今期の採用におけるAI関連職種の割合は80％に上ります。今回の採用は、AIアルゴリズム、研究開発、AIプロダクトマネージャーなど、複数の重要な分野を網羅しています。この採用強化策は、アリババ国際が近年、人工知能分野への継続的な投資を行っていることと密接に関連しています。アリババグループ傘下で海外EC事業に特化するアリババ国際は、技術革新において顕著な成果を上げており、世界初の…

El modelo de inferencia HunYuan-T1 de Tencent iguala las capacidades de o1 de OpenAI en pruebas de referencia

Tencent anunció recientemente el lanzamiento de su último modelo de lenguaje grande, HunYuan-T1, e indicó que el modelo puede igualar a los mejores sistemas de inferencia de OpenAI en capacidad de inferencia. Según Tencent, HunYuan-T1 se basó en gran medida en el aprendizaje por refuerzo durante su desarrollo, y hasta el 96,7% de la potencia informática posterior al entrenamiento se dedicó a mejorar la capacidad de razonamiento lógico del modelo y su alineación con las preferencias humanas. En varias pruebas de referencia, HunYuan-T1 mostró un rendimiento sólido. En la evaluación MMLU-PRO, que probó el conocimiento de 14 materias, el modelo obtuvo una puntuación de 87,2.

Boletín diario de IA: OpenAI lanza la API o1-pro más cara de la historia; Tencent lanzará el nuevo modelo de inferencia Huanyuan T1; el modelo de video Step-Video-TI2V de Jieyue Xingchen se convierte en código abierto

¡Bienvenido al boletín diario de IA! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Todos los días le presentamos los temas más destacados del campo de la IA, centrándonos en los desarrolladores y ayudándole a comprender las tendencias tecnológicas y las aplicaciones de productos de IA innovadores. Para conocer los nuevos productos de IA, haga clic aquí: https://top.aibase.com/1. ¡El más caro! Los usuarios pueden llamar al asistente Gemini directamente a través del icono de la interfaz frontal, disfrutando del soporte de teclas de método abreviado personalizadas e iconos de la bandeja del sistema, aunque actualmente no admite el modo de fijación de la barra lateral.

Jefe de investigación de OpenAI: Ciertos modelos de IA de razonamiento podrían haber llegado 20 años antes

Noam Brown, director de investigación de razonamiento de IA en OpenAI, declaró recientemente en una mesa redonda en la conferencia GTC de Nvidia que ciertas formas de modelos de IA de razonamiento "podrían haber llegado 20 años antes, si los investigadores hubieran sabido el enfoque y los algoritmos correctos". Señaló varias razones por las que esta línea de investigación se pasó por alto. Brown recordó su experiencia en la investigación de IA de juegos en la Universidad Carnegie Mellon, incluida la creación de Pluribus, que derrotó a jugadores profesionales de póquer humanos de élite. Dijo que en ese momento ayudó a crear

¡El más caro! OpenAI lanza el modelo de IA o1-pro, diez veces más costoso que el o1

La empresa de investigación de inteligencia artificial OpenAI anunció recientemente el lanzamiento de un nuevo modelo de IA de razonamiento llamado o1-pro en su API para desarrolladores. Según OpenAI, o1-pro ha requerido más recursos computacionales que su modelo o1 existente, con el objetivo de ofrecer respuestas consistentemente mejores. Sin embargo, este modelo de alto rendimiento está actualmente disponible solo para un subconjunto específico de desarrolladores: aquellos que han gastado al menos 5 dólares en el servicio de API de OpenAI. Lo más llamativo es que o1-pro...