艾倫人工智能研究所(AI2)發佈了一款開源大型語言模型OLMoE,旨在提供高性能與低成本的解決方案。該模型採用稀疏混合專家(MoE)架構,擁有70億參數,但通過智能路由機制,每個輸入標記僅使用10億參數,實現高效計算。OLMoE包含通用與指令調優兩個版本,支持4096標記的上下文窗口。其訓練數據來源廣泛,包括Common Crawl、Dolma CC和維基百科等。在性能測試中,OLMoE在多項指標上優於其他相似參數模型,甚至在某些情況下超越了更大規模的模型。AI2的目標是通過提供完全開源的AI模型,推動學術研究與開發,促進混合專家架構的廣泛應用。
["AI2 最近發佈了一個名爲 Dolma 的開源數據集,包含了 3 萬億個 token。","Dolma 的數據將爲 AI2 正在開發中的開放語言模型 OLMo 提供基礎,計劃於 2024 年初發布。","Dolma 的數據集來自網絡內容、學術出版物、代碼和書籍等廣泛來源,是目前公開可用的同類數據集中最大的一個。"]
["艾倫人工智能研究所發佈開放式文本數據集 Dolma,旨在促進 AI 語言模型的透明度和創新。","Dolma 作爲 AI2 開放式語言模型計劃的核心,爲研究人員和開發者提供免費的數據資源。","Dolma 數據集具有 30 億標記的規模,採用了中風險成果的 ImpACT 許可證,並鼓勵用戶提供聯繫信息和使用情況。"]
allenai
Olmo 3是由Allen Institute for AI開發的新一代語言模型系列,包含7B和32B兩種規模,有指令和思考兩種變體。該模型基於Dolma 3數據集進行預訓練,在Dolci數據集上進行後訓練,具備長鏈式思維能力,在數學和編碼等推理任務上表現優異。
Olmo 3 7B RL-Zero Mix是Allen AI開發的7B參數規模的語言模型,屬於Olmo 3系列。該模型在Dolma 3數據集上進行預訓練,在Dolci數據集上進行後訓練,並通過強化學習優化數學、編碼和推理能力。
Olmo 3 32B Think SFT是基於Transformer架構的自迴歸語言模型,在長鏈思維推理方面表現出色,特別擅長處理數學和編碼等複雜推理任務。該模型在Dolma 3數據集上進行預訓練,並在Dolci數據集上進行監督微調。
Olmo 3是Allen Institute for AI (Ai2)開發的全新32B參數語言模型家族,包含Base、Instruct和Think等變體。該模型基於Dolma 3數據集訓練,支持65,536的長上下文處理,旨在推動語言模型科學發展。模型完全開源,遵循Apache 2.0許可證。
Olmo-3-7B-Think-SFT是Allen Institute for AI開發的7B參數語言模型,具有長鏈式思考能力,在數學和編碼等推理任務中表現優異。該模型基於Dolma 3數據集預訓練,並在Dolci數據集上進行了後續訓練。
Olmo 3是由Allen Institute for AI開發的全新7B參數語言模型系列,基於Transformer架構,在Dolma 3數據集上訓練,旨在推動語言模型科學發展。模型提供Base、Instruct和Think等多種變體,支持最長65,536的上下文長度。
amd
AMD-OLMo是由AMD在AMD Instinct™ MI250 GPU上從頭開始訓練的10億參數語言模型系列,包括預訓練模型、監督微調模型和基於直接偏好優化(DPO)的對齊模型。該系列模型基於OLMo架構,在Dolma數據集上進行預訓練,並在多個指令數據集上進行微調。
OLMo 7B 2024年4月版是原始OLMo 7B模型的升級版本,基於改進的Dolma數據集和分階段訓練方法,在MMLU等評估中提升了24分。這是一個開放透明的語言模型,支持推理和微調任務。
OLMo 7B Instruct是基於Dolma數據集訓練的開放語言模型,經過SFT和DPO優化,專為問答任務設計。