在2024北京文化論壇上,北京智源人工智能研究院(BAAI)宣佈正式發佈新一代中文互聯網語料庫CCI3.0(Chinese Corpora Internet),進一步推動數據共建共享。CCI3.0包含1000GB的數據集及498GB的高質量子集CCI3.0-HQ,是繼2023年11月首次開源CCI1.0和2024年4月發佈CCI2.0之後的又一次重要更新。