艾伦人工智能研究所(AI2)发布了一款开源大型语言模型OLMoE,旨在提供高性能与低成本的解决方案。该模型采用稀疏混合专家(MoE)架构,拥有70亿参数,但通过智能路由机制,每个输入标记仅使用10亿参数,实现高效计算。OLMoE包含通用与指令调优两个版本,支持4096标记的上下文窗口。其训练数据来源广泛,包括Common Crawl、Dolma CC和维基百科等。在性能测试中,OLMoE在多项指标上优于其他相似参数模型,甚至在某些情况下超越了更大规模的模型。AI2的目标是通过提供完全开源的AI模型,推动学术研究与开发,促进混合专家架构的广泛应用。
["AI2 最近发布了一个名为 Dolma 的开源数据集,包含了 3 万亿个 token。","Dolma 的数据将为 AI2 正在开发中的开放语言模型 OLMo 提供基础,计划于 2024 年初发布。","Dolma 的数据集来自网络内容、学术出版物、代码和书籍等广泛来源,是目前公开可用的同类数据集中最大的一个。"]
["艾伦人工智能研究所发布开放式文本数据集 Dolma,旨在促进 AI 语言模型的透明度和创新。","Dolma 作为 AI2 开放式语言模型计划的核心,为研究人员和开发者提供免费的数据资源。","Dolma 数据集具有 30 亿标记的规模,采用了中风险成果的 ImpACT 许可证,并鼓励用户提供联系信息和使用情况。"]
allenai
Olmo 3是由Allen Institute for AI开发的新一代语言模型系列,包含7B和32B两种规模,有指令和思考两种变体。该模型基于Dolma 3数据集进行预训练,在Dolci数据集上进行后训练,具备长链式思维能力,在数学和编码等推理任务上表现优异。
Olmo 3 7B RL-Zero Mix是Allen AI开发的7B参数规模的语言模型,属于Olmo 3系列。该模型在Dolma 3数据集上进行预训练,在Dolci数据集上进行后训练,并通过强化学习优化数学、编码和推理能力。
Olmo 3 32B Think SFT是基于Transformer架构的自回归语言模型,在长链思维推理方面表现出色,特别擅长处理数学和编码等复杂推理任务。该模型在Dolma 3数据集上进行预训练,并在Dolci数据集上进行监督微调。
Olmo 3是Allen Institute for AI (Ai2)开发的全新32B参数语言模型家族,包含Base、Instruct和Think等变体。该模型基于Dolma 3数据集训练,支持65,536的长上下文处理,旨在推动语言模型科学发展。模型完全开源,遵循Apache 2.0许可证。
Olmo-3-7B-Think-SFT是Allen Institute for AI开发的7B参数语言模型,具有长链式思考能力,在数学和编码等推理任务中表现优异。该模型基于Dolma 3数据集预训练,并在Dolci数据集上进行了后续训练。
Olmo 3是由Allen Institute for AI开发的全新7B参数语言模型系列,基于Transformer架构,在Dolma 3数据集上训练,旨在推动语言模型科学发展。模型提供Base、Instruct和Think等多种变体,支持最长65,536的上下文长度。
amd
AMD-OLMo是由AMD在AMD Instinct™ MI250 GPU上从头开始训练的10亿参数语言模型系列,包括预训练模型、监督微调模型和基于直接偏好优化(DPO)的对齐模型。该系列模型基于OLMo架构,在Dolma数据集上进行预训练,并在多个指令数据集上进行微调。
OLMo 7B 2024年4月版是原始OLMo 7B模型的升级版本,基于改进的Dolma数据集和分阶段训练方法,在MMLU等评估中提升了24分。这是一个开放透明的语言模型,支持推理和微调任务。
OLMo 7B Instruct是基于Dolma数据集训练的开放语言模型,经过SFT和DPO优化,专为问答任务设计。