智源、世界最大の中国語・英語意味ベクトルモデル訓練データセットMTPを発表
智源研究院は、世界最大の中国語・英語意味ベクトルモデル訓練データセットMTPを発表しました。データ規模は3億ペアに達します。MTPはオープンソースで公開されている最大規模の中国語・英語関連テキストペアデータセットであり、意味ベクトルモデルの訓練において重要な基盤となります。データセットには、質疑応答、レビュー、ニュースなど、様々なタイプの中英テキストペアが含まれています。智源研究院は、このデータセットが大規模モデルの訓練に極めて重要な役割を果たし、人工知能の協調的イノベーションを促進すると述べています。このデータセットの公開は、中国語モデルの訓練データ不足の問題解決に繋がるものと期待されています。