rStar ist eine Methode des selbstspielenden gegenseitigen Schließens. Sie verbessert die Inferenzfähigkeit kleiner Sprachmodelle (SLMs) erheblich, indem sie den Inferenzprozess in Lösungsgenerierung und gegenseitige Validierung zerlegt. Dies geschieht ohne Feinabstimmung oder den Einsatz fortschrittlicherer Modelle. rStar erstellt qualitativ hochwertigere Inferenzpfade durch die Kombination von Monte-Carlo-Baumsuche (MCTS) und menschlichen Inferenzaktionen. Ein weiteres SLM mit ähnlichen Fähigkeiten dient als Diskriminator zur Überprüfung der Korrektheit dieser Pfade. Umfangreiche Experimente mit mehreren SLMs belegen die Effektivität bei der Lösung vielfältiger Inferenzprobleme.