MINT-1TはSalesforce AIがオープンソースとして公開したマルチモーダルデータセットであり、1兆個のテキストトークンと34億枚の画像が含まれており、既存のオープンソースデータセットの10倍の規模を誇ります。HTML文書だけでなく、PDF文書やarXiv論文も含まれており、データセットの多様性を豊かにしています。MINT-1Tデータセットの構築には、多様なソースからのデータ収集、処理、フィルタリングのプロセスが含まれており、データの高品質と多様性が確保されています。