DEJAVUシステムは、経済的で効率的なアルゴリズムと非同期処理、ハードウェア認識機能を組み合わせることで、大規模言語モデル(LLM)の推論速度を向上させます。研究チームはコンテキストのスパース性という概念を導入し、アテンションヘッドとMLPパラメータを動的に削減すると同時に、ハードウェア認識スパース行列乗算を採用することで、LLMの遅延を大幅に削減しました。この研究は、LLMが幅広いAIコミュニティでより容易に利用可能になり、新たなAIアプリケーションが開拓される可能性を秘めています。