DataComp-LM (DCLM) é um framework abrangente projetado para construir e treinar modelos de linguagem de grande porte (LLMs). Ele fornece um corpus padronizado, receitas de pré-treinamento eficientes baseadas no framework open_lm e mais de 50 métodos de avaliação. O DCLM permite que pesquisadores experimentem diferentes estratégias de construção de conjuntos de dados em diferentes escalas computacionais, de modelos com 411M a 7B de parâmetros. O DCLM melhora significativamente o desempenho do modelo por meio de um design otimizado de conjuntos de dados e já contribuiu para a criação de vários conjuntos de dados de alta qualidade que superam todos os conjuntos de dados abertos em diferentes escalas.