El conjunto de datos FineWeb contiene más de 15 billones de páginas web en inglés, limpiadas y depuradas, procedentes de CommonCrawl. Este conjunto de datos está diseñado específicamente para el preentrenamiento de modelos de lenguaje a gran escala, con el objetivo de impulsar el desarrollo de modelos de código abierto. Los datos han sido cuidadosamente procesados y filtrados para asegurar una alta calidad, siendo adecuados para diversas tareas de procesamiento del lenguaje natural.