AI2 推出全新開源模型 OLMoE:高效、強大且不再昂貴!
艾倫人工智能研究所(AI2)發佈了一款開源大型語言模型OLMoE,旨在提供高性能與低成本的解決方案。該模型採用稀疏混合專家(MoE)架構,擁有70億參數,但通過智能路由機制,每個輸入標記僅使用10億參數,實現高效計算。OLMoE包含通用與指令調優兩個版本,支持4096標記的上下文窗口。其訓練數據來源廣泛,包括Common Crawl、Dolma CC和維基百科等。在性能測試中,OLMoE在多項指標上優於其他相似參數模型,甚至在某些情況下超越了更大規模的模型。AI2的目標是通過提供完全開源的AI模型,推動學術研究與開發,促進混合專家架構的廣泛應用。