["智源研究院联合拓尔思、中科闻歌共建了 “中文互联网语料库”(CCI)","该语料库经过严格的筛选和清洗,数据规模为 104GB,时间跨度为 2001 年至 2023 年","智源研究院将继续扩充数据来源、完善数据处理流程,提供更多高质量、可信的数据资源","智源研究院还开放了其他高质量中文数据集,如 WUDAO copora、COIG 和 MTP","该举措旨在为大数据和人工智能行业提供安全、可靠的语料资源"]
["智源研究院发布全球最大的中英文语义向量模型训练数据集 MTP,数据规模达 3 亿对。","MTP 是开源的最大规模中英文关联文本对数据集,为训练语义向量模型提供重要基础。","数据集包含来自多个来源的中英文文本对,涵盖问答、评论、新闻等多种类型。","智源研究院表示数据对大模型训练起到至关重要的作用,将推动人工智能协同创新。","该数据集的发布有望解决中文模型训练数据集缺乏的问题。"]
一个基于FastMCP的TypeScript实现的MCP服务器项目,用于通过MTProto协议与Telegram交互,为AI模型提供工具支持。