ByteDance a rejoint la course effrénée des modèles d'inférence IA en lançant Seed-Thinking-v1.5, un nouveau grand modèle linguistique axé sur les domaines scientifiques, technologiques, mathématiques et ingénierie (STEM). Ce modèle, basé sur une architecture d'expert mixte (MoE), a démontré d'excellentes performances dans plusieurs tests de référence, surpassant même les produits de géants du secteur sur certains indicateurs.

L'évolution de l'IA d'inférence

La compétition dans le domaine de l'IA d'inférence a débuté en septembre 2024 avec le lancement du modèle o1 d'OpenAI, puis a véritablement accéléré en janvier 2025 avec la sortie de DeepSeek R1. Aujourd'hui, les principaux acteurs de l'IA s'efforcent de développer des modèles capables de réaliser des inférences en "chaîne de pensée" afin de fournir des réponses plus complètes et plus cohérentes. Seed-Thinking-v1.5 utilise l'architecture populaire d'expert mixte (MoE), similaire à Llama4 de Meta et Mixtral de Mistral. Cette architecture permet au modèle d'utiliser seulement 20 milliards de paramètres à chaque fois sur une vaste bibliothèque de 200 milliards de paramètres, améliorant ainsi considérablement l'efficacité.

QQ20250414-090120.png

Des performances exceptionnelles

Ce modèle a démontré des capacités impressionnantes : il a obtenu un score de 86,7 % sur AIME2024, un score pass@8 de 55,0 % sur Codeforces et un score de 77,3 % sur le test de référence scientifique GPQA. Plus remarquable encore, il a surpassé Gemini 2.5 Pro de Google et o3-mini-high d'OpenAI sur le test de référence ARC-AGI. Dans les tâches non liées à l'inférence, Seed-Thinking-v1.5 a un taux de réussite supérieur de 8,0 % à celui de DeepSeek R1, ce qui indique que son avantage en termes de performances ne se limite pas aux tâches à forte intensité logique ou mathématique.

Innovation et percées technologiques

ByteDance a mis en œuvre plusieurs technologies innovantes dans le développement de Seed-Thinking-v1.5, notamment des données d'entraînement soigneusement sélectionnées, un cadre d'apprentissage par renforcement avancé, un système de récompense à deux niveaux et une infrastructure efficace. Ils ont utilisé 400 000 échantillons pour l'ajustement fin supervisé, ont adopté les cadres personnalisés acteur-critique (VAPO) et gradient de politique (DAPO) pour résoudre les problèmes d'instabilité de l'entraînement par apprentissage par renforcement, ont utilisé de manière innovante des "validateurs de graines" et des "validateurs de pensée de graines" pour évaluer la qualité des sorties du modèle, et ont amélioré l'efficacité de l'entraînement grâce au cadre HybridFlow et au système de déploiement en continu (SRS), ce qui aurait accéléré le cycle d'apprentissage par renforcement de 3 fois.

Développement futur et impact sur le secteur

Bien que Seed-Thinking-v1.5 ne soit pas encore disponible au téléchargement ou à l'utilisation, et que ses conditions de licence n'aient pas encore été publiées, son apparition intensifie sans aucun doute la compétition dans le domaine de l'IA d'inférence et établit de nouvelles normes pour les grands modèles linguistiques puissants et efficaces. Ce projet est le fruit d'une collaboration de l'équipe Seed LLM System de ByteDance, dirigée par Wu Yonghui, avec Lin Haibin comme représentant public. L'équipe prévoit de continuer à améliorer les techniques d'apprentissage par renforcement et de publier publiquement des benchmarks internes tels que BeyondAIME afin de promouvoir des progrès plus larges dans la recherche sur l'IA d'inférence.