アリグループと人民大学が共同開発したMoEアーキテクチャ拡散言語モデルLLaDA-MoE。20TBデータで訓練済みで、大規模訓練の拡張性と安定性を実証。LLaDA1.0/1.5やDream-7Bを上回り、推論速度が数倍向上。近日オープンソース化予定。....
inclusionAI
LLaDA-MoEは拡散原理に基づいて構築された新しい混合専門家言語モデルで、最初のオープンソースのMoE拡散大規模言語モデルです。約20兆個のトークンで最初から事前学習され、総パラメータは70億で、推論時には14億のパラメータのみがアクティブ化されます。コード生成や数学的推論などのタスクで卓越した性能を発揮します。