Este modelo, mediante el aprendizaje por refuerzo y el ajuste fino de autosupervisión enmascarado de trayectorias de razonamiento de alta calidad, ha logrado mejorar la capacidad de razonamiento de los modelos de lenguaje extenso de difusión. La importancia de esta técnica radica en que puede optimizar el proceso de razonamiento del modelo, reducir el coste computacional y, al mismo tiempo, garantizar la estabilidad de la dinámica de aprendizaje. Es adecuado para usuarios que deseen mejorar la eficiencia en tareas de redacción y razonamiento.