螞蟻集團與人民大學聯合研發原生MoE架構擴散語言模型LLaDA-MoE,基於20T數據完成訓練,驗證了工業級大規模訓練的擴展性和穩定性。模型效果超越LLaDA1.0/1.5和Dream-7B,媲美自迴歸模型,推理速度提升數倍。該模型將於近期開源,推動全球AI社區在dLLM領域的技術發展。
inclusionAI
LLaDA-MoE是基於擴散原理構建的新型混合專家語言模型,是首個開源的MoE擴散大語言模型,在約20萬億個標記上從頭預訓練,總參數70億,推理時僅激活14億參數,在代碼生成和數學推理等任務中表現卓越。