rStar é um método de raciocínio de auto-jogo mútuo que melhora significativamente a capacidade de raciocínio de modelos de linguagem pequenos (SLMs, do inglês *Small Language Models*), sem a necessidade de ajuste fino ou modelos mais avançados. Isso é feito decompondo o processo de raciocínio em geração de soluções e verificação mútua. O rStar constrói trajetórias de raciocínio de maior qualidade combinando a busca em árvore Monte Carlo (MCTS) com ações de raciocínio humano, e utiliza outro SLM com capacidade semelhante como discriminador para verificar a correção dessas trajetórias. Amplos experimentos em vários SLMs demonstraram sua eficácia na resolução de problemas de raciocínio diversos.