Data-Juicer es un sistema integral de procesamiento de datos multimodales, diseñado para proporcionar datos de mayor calidad, más ricos y más fáciles de procesar para los modelos de lenguaje de gran tamaño (LLM). Ofrece una biblioteca de procesamiento de datos sistematizada y reutilizable, que admite el desarrollo conjunto de datos y modelos, permite la iteración rápida mediante un laboratorio de pruebas, y proporciona funciones como ciclos de retroalimentación basados en datos y modelos, visualización y evaluación automática multidimensional, ayudando a los usuarios a comprender y mejorar sus datos y modelos. Data-Juicer se actualiza y mantiene activamente, con mejoras y nuevas funciones, recetas de datos y conjuntos de datos añadidos periódicamente.