O MINT-1T é um conjunto de dados multimodais de código aberto criado pela Salesforce AI, contendo um trilhão de tokens de texto e 3,4 bilhões de imagens, sendo 10 vezes maior que os conjuntos de dados abertos existentes. Ele inclui não apenas documentos HTML, mas também documentos PDF e artigos do ArXiv, enriquecendo a diversidade do conjunto de dados. A construção do conjunto de dados MINT-1T envolve várias etapas de coleta, processamento e filtragem de dados de diversas fontes, garantindo alta qualidade e diversidade.