OLMo-2-1124-7B-RM est un grand modèle linguistique développé conjointement par Hugging Face et Allen AI, spécialisé dans les tâches de génération et de classification de texte. Ce modèle, basé sur une architecture de 7 milliards de paramètres, est conçu pour gérer des tâches linguistiques variées, incluant le chat, la résolution de problèmes mathématiques, et la classification de texte. Il s'agit d'un modèle de récompense entraîné sur les ensembles de données Tülu 3 et un ensemble de données de préférences, utilisé pour initialiser le modèle de valeur dans l'entraînement RLVR. La publication de la série de modèles OLMo vise à promouvoir la recherche scientifique sur les modèles linguistiques, favorisant la transparence et l'accessibilité grâce à la mise à disposition du code source, des checkpoints, des journaux et des détails d'entraînement associés.