蚂蚁集团开源dInfer框架,专用于扩散大语言模型高效推理。该框架将推理速度提升10倍,在保持同等模型性能下超越传统自回归模型。自回归模型逐字生成文本速度受限,扩散模型通过去噪过程实现更高效推理,推动自然语言处理技术发展。
蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer,显著提升推理速度。基准测试显示,其比英伟达Fast-dLLM快10.7倍,在HumanEval代码生成任务中单次推理达每秒1011个Tokens,推动技术迈向实际应用。
10月13日,蚂蚁集团开源业界首个高性能扩散语言模型推理框架dInfer。基准测试显示,其推理速度较英伟达Fast-dLLM提升10.7倍;在HumanEval代码生成任务中,单批次推理速度达1011Tokens/秒,首次在开源社区实现扩散模型单批次推理速度超越自回归模型,证明扩散语言模型具有显著效率潜力。