DataComp-LM (DCLM) ist ein umfassendes Framework zum Erstellen und Trainieren großer Sprachmodelle (LLMs). Es bietet standardisierte Korpora, effiziente Vortrainingsrezepte basierend auf dem open_lm-Framework und über 50 Bewertungsmethoden. DCLM ermöglicht Forschern das Experimentieren mit verschiedenen Strategien zum Erstellen von Datensätzen auf unterschiedlichen Rechenkapazitäten, von Modellen mit 411 Millionen bis zu 7 Milliarden Parametern. Durch optimiertes Datensatzdesign erzielt DCLM eine signifikante Verbesserung der Modellleistung und hat zur Erstellung mehrerer hochwertiger Datensätze beigetragen, die auf verschiedenen Skalen überragende Ergebnisse erzielen und alle öffentlich verfügbaren Datensätze übertreffen.