MINT-1T सेल्सफोर्स AI द्वारा ओपन सोर्स किया गया एक बहु-विधा डेटासेट है, जिसमें एक ट्रिलियन टेक्स्ट टोकन और 3.4 अरब छवियां शामिल हैं, जो मौजूदा ओपन सोर्स डेटासेट से 10 गुना बड़ा है। इसमें न केवल HTML दस्तावेज़, बल्कि PDF दस्तावेज़ और arXiv शोधपत्र भी शामिल हैं, जिससे डेटासेट की विविधता बढ़ती है। MINT-1T डेटासेट के निर्माण में कई स्रोतों से डेटा संग्रहण, प्रसंस्करण और फ़िल्टरिंग के चरण शामिल हैं, जो डेटा की उच्च गुणवत्ता और विविधता सुनिश्चित करते हैं।