蘋果研究團隊出品!LazyLLM:提高LLM長文本推理效率
蘋果與Meta AI聯袂推出新技術"LazyLLM",旨在提升大型語言模型在長文本推理效率。現代變換器架構在處理長提示時面臨速度慢問題,尤其線性增長的計算複雜度。針對此,LazyLLM採用動態選擇重要token的策略,減速算量,同時保持模型準確性。其高效機制包括對之前層注意力分數的評估,動態削減計算成本,動態恢復被剪枝的token,並藉助Aux Cache機制存儲隱含狀態以提升恢復效率。LazyLLM技術與任何基於變換器的模型兼容,實施過程無需模型重新訓練,適用於多種語言任務,顯著提升推理速度,TTFT速度最多提升4.77倍,且準確率幾乎與原版持平。此突破性技術在問答、摘要生成及代碼補全等任務中實現了高效快速的處理,採納動態剪枝與逐層分析策略,其優勢明顯。請您閱讀全文獲取詳情:https://arxiv.org/abs/2407.14057