OpenAI lanzó oficialmente el jueves su esperado modelo de lenguaje de IA, "o1". Este nuevo modelo, conocido como "Strawberry", afirma tener una mejora significativa en el razonamiento y la resolución de problemas en comparación con los modelos de lenguaje grandes anteriores. La serie de modelos o1 se lanza actualmente en dos versiones: o1-preview y o1-mini, disponibles para los usuarios de ChatGPT Plus y algunos usuarios de la API.

QQ20240913-085457.jpg

La característica más llamativa de o1 es su proceso de pensamiento antropomórfico. Antes de responder a una pregunta, o1 entra en un modo de pensamiento especial, descomponiendo problemas complejos en varios pasos pequeños que resuelve uno por uno, generando una cadena de pensamiento interna más larga para obtener respuestas más precisas.

image.png

Esta técnica, denominada "cálculo en tiempo de prueba" (Test-time computation) por Google DeepMind, se basa en la búsqueda de modelos de recompensa de orientación intensiva y de flujo de trabajo, y en la actualización adaptativa de la distribución de probabilidad de la respuesta del modelo.

Resumen de puntos clave:

  • Las versiones o1-preview y o1-mini tienen tiempos de respuesta más largos, pensando lentamente como una persona;

  • La serie o1 está en fase de prueba y solo admite funciones de texto; otras características como la conexión a Internet, la creación de imágenes y la importación de archivos están pendientes de desarrollo;

  • El desarrollo de prototipos de API está limitado a 20 solicitudes por minuto;

  • La API carece de soporte para llamadas a funciones, salida en streaming e información del sistema.

¿En qué destaca o1?

OpenAI afirma que o1-preview supera a su predecesor, GPT-4o, en varias pruebas de referencia, incluyendo programación competitiva, matemáticas y "razonamiento científico".

image.png

En programación, o1-preview se sitúa en el percentil 89 en problemas de programación competitiva de Codeforces.

En las pruebas de selección de la Olimpiada Matemática de Estados Unidos, el rendimiento de o1 es comparable al de los 500 mejores estudiantes del país. La capacidad matemática de o1 es notable; en el examen de clasificación para la Olimpiada Internacional de Matemáticas, o1-preview obtuvo una puntuación del 83%, mientras que GPT-4o solo obtuvo un 13%.

Más sorprendente aún, o1 superó por primera vez el nivel de un doctor en pruebas de referencia de física, biología y química, lo que marca un avance innovador en la capacidad de razonamiento complejo de la IA.

image.png

¿Por qué es tan potente el razonamiento de o1?

El progreso de o1 se debe principalmente a un nuevo método de entrenamiento de aprendizaje por refuerzo. Este método enseña al modelo a dedicar más tiempo a "pensar" antes de responder a las preguntas, similar a las indicaciones de cadena de pensamiento "pensemos paso a paso" en otros modelos de lenguaje grandes. Este proceso permite a o1 probar diferentes estrategias e "identificar" sus propios errores.

OpenAI afirma que continuará desarrollando los modelos o1 y GPT, y planea agregar funciones de navegación web, generación de imágenes y carga de archivos a o1-preview.

Sin embargo, estos datos impresionantes también generan controversia. Algunos usuarios han comentado que o1 no supera a GPT-4o en todos los indicadores.

Además, el tiempo de respuesta más largo debido al procesamiento de varios pasos en segundo plano ha generado algunas críticas. La directora de producto de OpenAI, Joanne Jang, declaró en las redes sociales: "o1 es el primer modelo de razonamiento que destaca en tareas extremadamente difíciles, y solo mejorará. Pero no es un 'modelo milagroso' que supere a los modelos anteriores en todos los aspectos."

QQ20240913-092226.jpg

Cabe destacar que las pruebas de referencia de IA suelen ser poco fiables y fáciles de manipular. La capacidad real de o1 necesita ser verificada y probada de forma independiente por los usuarios. A principios de este año, un estudio del MIT reveló que algunas afirmaciones de referencia de OpenAI sobre GPT-4 el año pasado fueron erróneas o exageradas.

Además de la mejora del rendimiento, o1 también ha suscitado un debate sobre la capacidad de "razonamiento" de la IA. Algunos expertos en tecnología consideran inapropiado atribuir características humanas como "pensamiento" o "razonamiento" a los modelos de IA.

Información oficial: https://openai.com/index/introducing-openai-o1-preview/

Acceso oficial: https://top.aibase.com/tool/openai-o1