rStar est une méthode d'autojeu et de raisonnement mutuel qui améliore considérablement les capacités de raisonnement des petits modèles linguistiques (SLM) sans nécessiter de réglage fin ni l'utilisation de modèles plus avancés. Elle décompose le processus de raisonnement en génération de solutions et validation mutuelle. rStar construit des trajectoires de raisonnement de meilleure qualité en combinant la recherche de Monte-Carlo (MCTS) et des actions de raisonnement humain. Un autre SLM, agissant comme discriminateur, valide ensuite la justesse de ces trajectoires. Des expériences menées sur plusieurs SLM ont démontré son efficacité pour résoudre une variété de problèmes de raisonnement.