最近、アレン人工知能研究所(AI2)は、大規模言語モデル(LLM)の需要に応えることを目的とした、全く新しいオープンソースモデルOLMoEを発表しました。このモデルは、優れた性能を持ちながら、比較的低コストです。
OLMoEは、スパース混合専門家(MoE)アーキテクチャを採用しており、70億個のパラメータを備えています。しかし、各入力トークンには10億個のパラメータしか使用されません。より汎用的なOLMoE-1B-7Bと、指示調整済みのOLMoE-1B-7B-Instructの2つのバージョンがあります。
他のほとんどのクローズドソースの混合専門家モデルとは異なり、AI2はOLMoEが完全にオープンソースであることを特に強調しています。彼らは論文の中で、「ほとんどのMoEモデルはクローズドソースです。モデルの重みを公開しているものもありますが、トレーニングデータ、コード、またはレシピに関する情報は非常に限られています。」と述べており、多くの学術研究者がこれらのモデルにアクセスできない状況を指摘しています。
AI2の研究科学者であるネイサン・ランバート氏はソーシャルメディアで、OLMoEが政策立案に役立ち、学術界におけるH100クラスタの導入の足掛かりとなる可能性があると述べています。また、OLMoEモデルの公開は、AI2がオープンソースモデルの開発に尽力し、その性能をクローズドモデルに匹敵させることを目指す取り組みの一環であると述べています。
モデルの構築において、AI2は64個の小型専門家を精緻なルーティングで使用し、実行時にはそのうち8個だけをアクティブ化することを決定しました。実験によると、OLMoEは他のモデルと同等の性能を示しながら、推論コストとメモリストレージを大幅に削減しています。OLMoEは、AI2の以前のオープンソースモデルであるOLMO1.7-7Bを基盤として構築されており、4096トークンのコンテキストウィンドウをサポートしています。OLMoEのトレーニングデータは、Common Crawl、Dolma CC、Wikipediaなど、複数のソースから取得されています。
ベンチマークテストでは、OLMoE-1B-7Bは、同様のパラメータを持つモデルと比較した場合、多くの既存モデルを上回り、Llama2-13B-ChatやDeepSeekMoE-16Bなどのより大規模なモデルをも凌駕する結果を示しました。
AI2の目標の1つは、混合専門家アーキテクチャを含む、より多くの完全にオープンソースのAIモデルを研究者に提供することです。多くの開発者がMoEアーキテクチャを使用していますが、AI2は、他のほとんどのAIモデルはオープン性においてまだ不十分であると考えています。
huggingface: https://huggingface.co/collections/allenai/olmoe-66cf678c047657a30c8cd3da
論文入口: https://arxiv.org/abs/2409.02060
要点:
- 🌟 AI2が発表した新しいオープンソースモデルOLMoEは、性能とコストの両面で競争力があります。
- 📊 OLMoEはスパース混合専門家アーキテクチャを採用しており、推論コストとメモリ要件を効果的に削減します。
- 🔍 AI2は、包括的なオープンソースAIモデルを提供することにより、学術研究と開発を促進することを目指しています。