蚂蚁集团与人民大学联合研发原生MoE架构扩散语言模型LLaDA-MoE,基于20T数据完成训练,验证了工业级大规模训练的扩展性和稳定性。模型效果超越LLaDA1.0/1.5和Dream-7B,媲美自回归模型,推理速度提升数倍。该模型将于近期开源,推动全球AI社区在dLLM领域的技术发展。
inclusionAI
LLaDA-MoE是基于扩散原理构建的新型混合专家语言模型,是首个开源的MoE扩散大语言模型,在约20万亿个标记上从头预训练,总参数70亿,推理时仅激活14亿参数,在代码生成和数学推理等任务中表现卓越。