DataComp-LM (DCLM) est un framework complet conçu pour la construction et l'entraînement de grands modèles de langage (LLM). Il fournit un corpus standardisé, des recettes de pré-entraînement efficaces basées sur le framework open_lm, et plus de 50 méthodes d'évaluation. DCLM permet aux chercheurs d'expérimenter différentes stratégies de construction de jeux de données à différentes échelles de calcul, des modèles à 411 millions de paramètres aux modèles à 7 milliards de paramètres. DCLM améliore considérablement les performances des modèles grâce à une conception optimisée des jeux de données et a permis la création de plusieurs jeux de données de haute qualité qui surpassent tous les jeux de données ouverts à différentes échelles.