艾伦人工智能研究所(AI2)发布了一款开源大型语言模型OLMoE,旨在提供高性能与低成本的解决方案。该模型采用稀疏混合专家(MoE)架构,拥有70亿参数,但通过智能路由机制,每个输入标记仅使用10亿参数,实现高效计算。OLMoE包含通用与指令调优两个版本,支持4096标记的上下文窗口。其训练数据来源广泛,包括Common Crawl、Dolma CC和维基百科等。在性能测试中,OLMoE在多项指标上优于其他相似参数模型,甚至在某些情况下超越了更大规模的模型。AI2的目标是通过提供完全开源的AI模型,推动学术研究与开发,促进混合专家架构的广泛应用。
["AI2 最近发布了一个名为 Dolma 的开源数据集,包含了 3 万亿个 token。","Dolma 的数据将为 AI2 正在开发中的开放语言模型 OLMo 提供基础,计划于 2024 年初发布。","Dolma 的数据集来自网络内容、学术出版物、代码和书籍等广泛来源,是目前公开可用的同类数据集中最大的一个。"]
["艾伦人工智能研究所发布开放式文本数据集 Dolma,旨在促进 AI 语言模型的透明度和创新。","Dolma 作为 AI2 开放式语言模型计划的核心,为研究人员和开发者提供免费的数据资源。","Dolma 数据集具有 30 亿标记的规模,采用了中风险成果的 ImpACT 许可证,并鼓励用户提供联系信息和使用情况。"]
amd
AMD-OLMo是由AMD在AMD Instinct™ MI250 GPU上从头开始训练的10亿参数语言模型系列,包括预训练模型、监督微调模型和基于直接偏好优化(DPO)的对齐模型。该系列模型基于OLMo架构,在Dolma数据集上进行预训练,并在多个指令数据集上进行微调。
allenai
OLMo 7B 2024年4月版是原始OLMo 7B模型的升级版本,基于改进的Dolma数据集和分阶段训练方法,在MMLU等评估中提升了24分。这是一个开放透明的语言模型,支持推理和微调任务。
OLMo 7B Instruct是基于Dolma数据集训练的开放语言模型,经过SFT和DPO优化,专为问答任务设计。