["智源研究院聯合拓爾思、中科聞歌共建了 “中文互聯網語料庫”(CCI)","該語料庫經過嚴格的篩選和清洗,數據規模爲 104GB,時間跨度爲 2001 年至 2023 年","智源研究院將繼續擴充數據來源、完善數據處理流程,提供更多高質量、可信的數據資源","智源研究院還開放了其他高質量中文數據集,如 WUDAO copora、COIG 和 MTP","該舉措旨在爲大數據和人工智能行業提供安全、可靠的語料資源"]
["智源研究院發佈全球最大的中英文語義向量模型訓練數據集 MTP,數據規模達 3 億對。","MTP 是開源的最大規模中英文關聯文本對數據集,爲訓練語義向量模型提供重要基礎。","數據集包含來自多個來源的中英文文本對,涵蓋問答、評論、新聞等多種類型。","智源研究院表示數據對大模型訓練起到至關重要的作用,將推動人工智能協同創新。","該數據集的發佈有望解決中文模型訓練數據集缺乏的問題。"]
一個基於FastMCP的TypeScript實現的MCP服務器項目,用於通過MTProto協議與Telegram交互,為AI模型提供工具支持。