MINT-1T ist ein von Salesforce AI als Open Source veröffentlichter multimodaler Datensatz, der eine Billion Text-Token und 3,4 Milliarden Bilder umfasst – das Zehnfache der Größe bestehender Open-Source-Datensätze. Er enthält nicht nur HTML-Dokumente, sondern auch PDF-Dokumente und ArXiv-Paper, was die Diversität des Datensatzes bereichert. Die Erstellung des MINT-1T-Datensatzes umfasste mehrere Schritte zur Datenerfassung, -verarbeitung und -filterung aus verschiedenen Quellen, um eine hohe Qualität und Diversität der Daten sicherzustellen.