MINT-1T est un ensemble de données multimodales open source développé par Salesforce AI. Il contient un billion de jetons textuels et 3,4 milliards d'images, soit une échelle dix fois supérieure aux ensembles de données open source existants. Il inclut non seulement des documents HTML, mais aussi des documents PDF et des articles arXiv, enrichissant ainsi la diversité de l'ensemble de données. La création de MINT-1T implique plusieurs étapes de collecte, de traitement et de filtrage des données provenant de sources diverses, garantissant ainsi la haute qualité et la diversité des données.