DEJAVU系统采用经济高效算法,结合异步和硬件感知,提高大型语言模型(LLM)的推断速度。研究团队引入上下文稀疏性的概念,动态修剪注意力头和MLP参数,同时采用硬件感知的稀疏矩阵乘法,显著降低LLM的延迟。这一研究有望使LLM更容易被广泛的AI社区使用,开启新的AI应用。