Dans les recherches sur l'intelligence artificielle ces dernières années, le concept de chaîne de raisonnement a gagné en importance, notamment dans la formation et l'inférence des modèles linguistiques de grande taille. Récemment, une équipe dirigée par le professeur Guojun Qi du laboratoire MAPLE de l'université de West Lake a proposé pour la première fois une nouvelle méthode de « chaîne de raisonnement divergente diffusive », une approche d'inférence entièrement repensée conçue spécifiquement pour les modèles de langage diffusionnels.
Les modèles linguistiques de grande taille traditionnels utilisent généralement une chaîne de raisonnement linéaire, consistant à générer progressivement une réponse via des étapes successives. Cependant, le processus de pensée humain est souvent plus complexe, rempli de non-linéarité et de sauts caractéristiques. L'équipe du professeur Qi pense que la simulation de ce type de pensée divergente aidera à améliorer la créativité et la capacité de résolution de problèmes du modèle.

Le cœur de la chaîne de raisonnement divergente diffusive réside dans le fait qu'elle permet au modèle de générer des résultats intermédiaires dans un ordre arbitraire au cours du processus d'inférence, sans avoir à suivre les structures grammaticales traditionnelles ou les exigences de lisibilité. Par cette méthode, le modèle peut explorer davantage de chemins de réflexion diversifiés et formuler des réponses plus créatives et flexibles. Cette approche a déjà été appliquée avec succès dans plusieurs modèles de langage diffusionnels, particulièrement efficace dans les tâches de raisonnement mathématique et de génération de code, surpassant les performances des modèles existants.
Dans l'implémentation pratique, l'équipe optimise tout le processus grâce à une méthode d'apprentissage par renforcement. Le modèle commence avec une séquence masquée sans information, générant progressivement des informations clés tout en aboutissant à la réponse finale lors du processus de débruitage par diffusion. Contrairement aux chaînes de raisonnement traditionnelles, la chaîne de raisonnement par diffusion peut utiliser les contenus générés en cours de route pour promouvoir l'exactitude de la réponse finale.
Les résultats de l'équipe de recherche montrent que la chaîne de raisonnement divergente diffusive ne fait pas qu'améliorer les capacités d'inférence des modèles, mais offre également des perspectives importantes pour l'entraînement futur des modèles. Cette méthode innovante de chaîne de raisonnement, notamment mise en œuvre dans le modèle Gemini Diffusion de Google, préfigure un potentiel d'application beaucoup plus large. À l'avenir, la chaîne de raisonnement par diffusion pourrait devenir une méthode standard pour l'entraînement des modèles de langage diffusionnels.
Adresse arXiv : https://arxiv.org/abs/2505.10446
Adresse GitHub : https://github.com/maple-research-lab/LLaDOU