Light-R1-14B-DS es un modelo matemático de código abierto desarrollado por Beijing Qihu Technology Co., Ltd. Este modelo se entrenó mediante aprendizaje por refuerzo basado en DeepSeek-R1-Distill-Qwen-14B, y obtuvo puntuaciones altas de 74.0 y 60.2 en las pruebas de referencia de las competiciones matemáticas AIME24 y AIME25, superando a muchos modelos con 32 mil millones de parámetros. Ha logrado con éxito un intento de aprendizaje por refuerzo en un modelo ya ajustado para inferencia de cadenas largas con un presupuesto ligero, proporcionando a la comunidad de código abierto una poderosa herramienta de modelo matemático. La publicación de código abierto de este modelo ayudará a impulsar la aplicación del procesamiento del lenguaje natural en el ámbito educativo, especialmente en la resolución de problemas matemáticos, ofreciendo a investigadores y desarrolladores una valiosa base de investigación y herramientas prácticas.