艾倫人工智能研究所(AI2)發佈了一款開源大型語言模型OLMoE,旨在提供高性能與低成本的解決方案。該模型採用稀疏混合專家(MoE)架構,擁有70億參數,但通過智能路由機制,每個輸入標記僅使用10億參數,實現高效計算。OLMoE包含通用與指令調優兩個版本,支持4096標記的上下文窗口。其訓練數據來源廣泛,包括Common Crawl、Dolma CC和維基百科等。在性能測試中,OLMoE在多項指標上優於其他相似參數模型,甚至在某些情況下超越了更大規模的模型。AI2的目標是通過提供完全開源的AI模型,推動學術研究與開發,促進混合專家架構的廣泛應用。
["AI2 最近發佈了一個名爲 Dolma 的開源數據集,包含了 3 萬億個 token。","Dolma 的數據將爲 AI2 正在開發中的開放語言模型 OLMo 提供基礎,計劃於 2024 年初發布。","Dolma 的數據集來自網絡內容、學術出版物、代碼和書籍等廣泛來源,是目前公開可用的同類數據集中最大的一個。"]
["艾倫人工智能研究所發佈開放式文本數據集 Dolma,旨在促進 AI 語言模型的透明度和創新。","Dolma 作爲 AI2 開放式語言模型計劃的核心,爲研究人員和開發者提供免費的數據資源。","Dolma 數據集具有 30 億標記的規模,採用了中風險成果的 ImpACT 許可證,並鼓勵用戶提供聯繫信息和使用情況。"]
amd
AMD-OLMo是由AMD在AMD Instinct™ MI250 GPU上從頭開始訓練的10億參數語言模型系列,包括預訓練模型、監督微調模型和基於直接偏好優化(DPO)的對齊模型。該系列模型基於OLMo架構,在Dolma數據集上進行預訓練,並在多個指令數據集上進行微調。
allenai
OLMo 7B 2024年4月版是原始OLMo 7B模型的升級版本,基於改進的Dolma數據集和分階段訓練方法,在MMLU等評估中提升了24分。這是一個開放透明的語言模型,支持推理和微調任務。
OLMo 7B Instruct是基於Dolma數據集訓練的開放語言模型,經過SFT和DPO優化,專為問答任務設計。