智源研究院、中文インターネットコーパスCCI3.0を発表 1000GBのデータセットを含む
2024北京文化フォーラムにおいて、北京智源人工知能研究院(BAAI)は、新世代の中文インターネットコーパスCCI3.0(Chinese Corpora Internet)の正式発表を行いました。データの共同構築と共有を促進します。CCI3.0は1000GBのデータセットと498GBの高品質サブセットCCI3.0-HQを含み、2023年11月のCCI1.0の最初のオープンソース化、2024年4月のCCI2.0発表に続く重要なアップデートとなります。