MINT-1T es un conjunto de datos multimodal de código abierto creado por Salesforce AI, que contiene un billón de tokens de texto y 3400 millones de imágenes, diez veces mayor que los conjuntos de datos de código abierto existentes. No solo incluye documentos HTML, sino también documentos PDF y artículos de ArXiv, enriqueciendo la diversidad del conjunto de datos. La creación del conjunto de datos MINT-1T implica varios pasos de recopilación, procesamiento y filtrado de datos de diversas fuentes, lo que garantiza la alta calidad y diversidad de los datos.