["智源研究院联合拓尔思、中科闻歌共建了 “中文互联网语料库”(CCI)","该语料库经过严格的筛选和清洗,数据规模为 104GB,时间跨度为 2001 年至 2023 年","智源研究院将继续扩充数据来源、完善数据处理流程,提供更多高质量、可信的数据资源","智源研究院还开放了其他高质量中文数据集,如 WUDAO copora、COIG 和 MTP","该举措旨在为大数据和人工智能行业提供安全、可靠的语料资源"]
["智源研究院发布全球最大的中英文语义向量模型训练数据集 MTP,数据规模达 3 亿对。","MTP 是开源的最大规模中英文关联文本对数据集,为训练语义向量模型提供重要基础。","数据集包含来自多个来源的中英文文本对,涵盖问答、评论、新闻等多种类型。","智源研究院表示数据对大模型训练起到至关重要的作用,将推动人工智能协同创新。","该数据集的发布有望解决中文模型训练数据集缺乏的问题。"]
Alibaba
-
输入tokens/百万
输出tokens/百万
上下文长度
$0.7
$1.95
16
$1.8
$5.4
Baidu
ai-sage
GigaChat3-10B-A1.8B 是 GigaChat 系列的高效对话模型,基于混合专家(MoE)架构,拥有 100 亿总参数和 18 亿活跃参数。它采用了创新的多头潜在注意力(MLA)和多令牌预测(MTP)技术,旨在优化推理吞吐量和生成速度。模型在 20T 令牌的多样化数据上训练,支持包括中文在内的 10 种语言,适用于需要快速响应的对话场景。
GigaChat3-10B-A1.8B-base是GigaChat系列的基础预训练模型,采用混合专家(MoE)架构,总参数100亿,活跃参数18亿。模型集成了多头潜在注意力(MLA)和多令牌预测(MTP)技术,在推理时具备高吞吐量优势。
一个基于FastMCP的TypeScript实现的MCP服务器项目,用于通过MTProto协议与Telegram交互,为AI模型提供工具支持。