DataComp-LM (DCLM) は、大規模言語モデル(LLM)の構築と訓練を目的とした包括的なフレームワークです。標準化されたコーパス、open_lmフレームワークに基づく効率的な事前学習レシピ、50種類以上の評価方法を提供します。DCLMは、4億1100万パラメータから70億パラメータのモデルまで、様々な計算規模で異なるデータセット構築戦略の実験を研究者が行えるようサポートします。DCLMは、最適化されたデータセット設計によりモデル性能を大幅に向上させ、様々な規模で優れた性能を示し、公開されているすべてのデータセットを凌駕する複数の高品質なデータセットの作成に貢献してきました。