Le domaine des grands modèles open source connaît une nouvelle percée. « Wen Xiao Bai » a officiellement lancé sa quatrième génération de modèle open source XBai o4, qui se distingue par ses capacités de raisonnement complexe. La version Medium dépasse déjà largement l'OpenAI o3-mini, et sur certains tests de référence, elle est même supérieure à l'Anthropic Claude Opus.

XBai o4 intègre une nouvelle approche innovante appelée « paradigme de génération réflexive », combinant l'apprentissage par renforcement Long-CoT et l'apprentissage des récompenses de processus, ce qui permet d'atteindre un raisonnement profond et une sélection efficace de chaînes de raisonnement, tout en réduisant significativement les coûts de raisonnement.

QQ20250804-172822.png

Avancées technologiques : le paradigme original de génération réflexive

La principale innovation de XBaio4 réside dans son « paradigme de génération réflexive » (reflective generative form). Ce paradigme combine l'apprentissage par renforcement Long-CoT et l'apprentissage des récompenses de processus (Process Reward Learning), permettant au même modèle de réaliser deux tâches clés :

  1. Raisonnement approfondi : penser de manière complexe en plusieurs étapes, comme le ferait un humain.

  2. Sélection de chaînes de raisonnement de haute qualité : évaluer et choisir la meilleure voie de raisonnement.

Ce qui est particulièrement remarquable, c'est que XBaio4 a réduit de 99 % le temps nécessaire pour le raisonnement des récompenses de processus en partageant le réseau principal du modèle PRMs et du modèle de stratégie. Cette optimisation améliore considérablement l'efficacité du fonctionnement du modèle, offrant ainsi une base solide pour les applications pratiques.

Performance exceptionnelle : performance supérieure sur plusieurs tests de référence

Le modèle XBaio4 propose trois modes (faible, moyen, élevé) pour s'adapter aux exigences de différentes tâches complexes. Son excellente performance a été pleinement validée sur plusieurs tests de référence clés :

  • Dans le mode moyen, XBaio4 surpasse largement le modèle o3-mini d'OpenAI.

  • Dans certains tests de référence, ses performances sont même supérieures à celles du Claude Opus d'Anthropic.

  • Le modèle montre une excellente capacité de raisonnement sur plusieurs tests comme AIME24, AIME25, LiveCodeBench v5, C-EVAL.

« Wen Xiao Bai » a déjà mis en open source les codes d'entraînement et d'évaluation associés sur GitHub, ce qui constitue non seulement une ressource précieuse pour la communauté de recherche en IA, mais aussi un signe que la compétitivité des grands modèles open source dans le domaine du raisonnement complexe s'accroît rapidement.

Adresse : https://github.com/MetaStone-AI/XBai-o4