El campo de los modelos de lenguaje de código abierto ha alcanzado un nuevo avance. "Wen Xiao Bai" ha lanzado oficialmente su cuarta generación de modelo de código abierto XBai o4, que destaca por su capacidad de razonamiento complejo. La modalidad Medium ya supera ampliamente a OpenAI o3-mini y en algunas pruebas benchmark supera a Anthropic Claude Opus.

XBai o4 introduce una nueva "paradigma de generación reflexiva", combinando el aprendizaje por refuerzo Long-CoT y el aprendizaje de puntuación del proceso, logrando así un razonamiento profundo y una selección eficiente de cadenas de razonamiento, reduciendo significativamente los costos de razonamiento.

QQ20250804-172822.png

Avances tecnológicos: El paradigma único de generación reflexiva

La innovación central de XBaio4 es su único "paradigma de generación reflexiva" (reflective generative form). Este paradigma combina el aprendizaje por refuerzo Long-CoT con el aprendizaje de recompensas del proceso (Process Reward Learning), permitiendo que un solo modelo realice dos tareas clave:

  1. Razonamiento profundo: realizar pensamientos complejos de varios pasos como lo haría un ser humano.

  2. Selección de cadenas de razonamiento de alta calidad: evaluar y elegir la mejor ruta de razonamiento.

Más destacable aún, XBaio4 reduce en un 99% el tiempo de razonamiento para puntuaciones de proceso al compartir la red principal del modelo de puntuación del proceso (PRMs) y el modelo de estrategia. Esta optimización mejora significativamente la eficiencia del modelo, proporcionando una base sólida para aplicaciones prácticas.

Excelente rendimiento: Liderazgo en múltiples benchmarks

El modelo XBaio4 ofrece tres modos (low, medium, high) para adaptarse a diferentes necesidades de complejidad. Su potente rendimiento ha sido plenamente validado en múltiples benchmarks clave:

  • En el modo Medium, XBaio4 supera completamente al modelo o3-mini de OpenAI.

  • En algunos benchmarks, su desempeño incluso superó a Claude Opus de Anthropic.

  • El modelo muestra una capacidad de razonamiento excepcional en varios tests como AIME24, AIME25, LiveCodeBench v5, C-EVAL.

"Wen Xiao Bai" ha abierto el código de entrenamiento y evaluación en GitHub, lo que no solo brinda un recurso valioso a la comunidad de investigación en IA, sino que también indica que la competitividad de los grandes modelos de código abierto en el campo del razonamiento complejo está creciendo rápidamente.

Dirección: https://github.com/MetaStone-AI/XBai-o4