DeepScaleR-1.5B-Preview est un grand modèle linguistique optimisé par apprentissage par renforcement, axé sur l'amélioration des capacités de résolution de problèmes mathématiques. Grâce à un algorithme d'apprentissage par renforcement distribué, le modèle améliore considérablement sa précision dans les scénarios d'inférence sur de longs textes. Ses principaux avantages sont une stratégie d'entraînement efficace, une amélioration significative des performances et une flexibilité grâce à son ouverture. Ce modèle a été développé par le Sky Computing Lab et le Berkeley AI Research de l'Université de Californie à Berkeley, dans le but de promouvoir l'intelligence artificielle dans le domaine de l'éducation, notamment en mathématiques et dans le cadre de compétitions mathématiques. Il est disponible sous licence MIT open source et est entièrement gratuit pour les chercheurs et les développeurs.