Avec les progrès constants des technologies d'IA, la question de savoir comment permettre aux grands modèles d'acquérir une capacité de « pensée parallèle » est devenue un sujet de discussion important pour les chercheurs. Récemment, le laboratoire de l'IA de Tencent a collaboré avec plusieurs équipes universitaires pour présenter un nouveau cadre d'apprentissage par renforcement (RL) appelé Parallel-R1, visant à enseigner aux grands modèles comment explorer simultanément plusieurs chemins de raisonnement. Ce cadre innovant ouvre de nouvelles perspectives pour faire face à des tâches complexes de raisonnement mathématique.

image.png

Les méthodes traditionnelles reposent souvent sur le fine-tuning supervisé (SFT), une approche qui exige une qualité de données extrêmement élevée et où les modèles n'imitent généralement que les données existantes, manquant ainsi de capacité d'apprentissage autonome et de généralisation. Pour résoudre ces problèmes, le cadre Parallel-R1 est né. La découverte clé de l'équipe de recherche est qu'en utilisant des prompts simples, on peut obliger le modèle à générer des données de pensée parallèle de haute qualité lors du traitement de problèmes mathématiques simples. Ensuite, grâce à un mode d'entraînement « progressif », le modèle apprend d'abord les « formats grammaticaux » de la pensée parallèle à partir de tâches simples, puis passe progressivement à des problèmes mathématiques plus complexes pour un apprentissage par renforcement.

image.png

En outre, l'équipe a proposé une stratégie de récompense alternée pour résoudre le problème du design des récompenses, équilibrant habilement « la précision de la solution » et « la diversité de la pensée ». Pendant l'entraînement, le modèle reçoit principalement des récompenses liées à la précision, mais dans une petite partie du temps, il reçoit également des récompenses supplémentaires pour utiliser la pensée parallèle. Cette stratégie a considérablement amélioré l'utilisation de la pensée parallèle par le modèle, entraînant une amélioration significative dans plusieurs tests de référence mathématiques.

Les résultats expérimentaux montrent que le cadre Parallel-R1 a non seulement amélioré de 8,4 % la précision moyenne du modèle sur plusieurs tests de référence mathématiques, mais a aussi permis une augmentation de 42,9 % des performances dans le test AIME25. Les chercheurs ont constaté que, après l'entraînement, les stratégies de pensée du modèle passent progressivement d'une exploration « large » initiale à une validation « précise » ultérieure, démontrant pleinement les avantages apportés par la pensée parallèle.

Le succès de Parallel-R1 ouvre de nouvelles directions pour la capacité de raisonnement des grands modèles et fournit de nouvelles pistes pour la recherche en IA, mettant en évidence le potentiel de la pensée parallèle pour résoudre des tâches complexes.