ReFT es un método simple y efectivo para mejorar la capacidad de razonamiento de los grandes modelos de lenguaje (LLM). Primero, precalienta el modelo mediante el ajuste fino supervisado (SFT), y luego lo ajusta aún más utilizando aprendizaje por refuerzo en línea, concretamente el algoritmo PPO descrito en este documento. ReFT supera significativamente al SFT al muestrear automáticamente un gran número de rutas de razonamiento para una pregunta dada y derivar recompensas naturalmente de las respuestas correctas. El rendimiento de ReFT puede mejorarse aún más combinando estrategias de toma de decisiones durante la inferencia, como la votación por mayoría y la reordenación. Cabe destacar que ReFT logra mejoras aprendiendo de los mismos datos de entrenamiento que el SFT, sin necesidad de datos adicionales o mejorados. Esto indica una mayor capacidad de generalización de ReFT.