無需訓練!Q-Filters 實現 KV 緩存高效壓縮,提升推理性能
近年來,基於 Transformer 架構的大型語言模型(LLMs)取得了顯著進展,諸如 Gemini-Pro1.5、Claude-3、GPT-4和 Llama-3.1等新模型能夠處理成百上千的token。然而,這些擴展的上下文長度帶來了實際應用中的一些重大挑戰。隨着序列長度的增加,解碼延遲上升,內存限制也成爲了一個嚴重的瓶頸。KV 緩存在推理過程中儲存上下文信息,隨着上下文長度的增加,緩存的大小也呈比例增長,這導致內存飽和,嚴重影響了處理長輸入序列的效率,因此迫切需要優化解決方案。雖然市場上存在一些無訓練的方