DeepScaleR-1.5B-Preview es un gran modelo lingüístico optimizado mediante aprendizaje por refuerzo, enfocado en mejorar la capacidad de resolución de problemas matemáticos. Este modelo, a través de algoritmos de aprendizaje por refuerzo distribuido, ha mejorado significativamente la precisión en escenarios de razonamiento con textos largos. Sus principales ventajas incluyen una estrategia de entrenamiento eficiente, una mejora de rendimiento notable y la flexibilidad de ser de código abierto. Desarrollado por el Sky Computing Lab y el equipo de Berkeley AI Research de la Universidad de California, Berkeley, tiene como objetivo impulsar la aplicación de la inteligencia artificial en el ámbito educativo, especialmente en la enseñanza de matemáticas y en las competiciones matemáticas. El modelo utiliza la licencia MIT de código abierto, siendo completamente gratuito para investigadores y desarrolladores.