谷歌推出TurboQuant算法,通過PolarQuant和QJL技術,將大語言模型推理中的鍵值緩存內存需求降低至少6倍,在H100 GPU上注意力計算速度提升最高8倍,且保持零精度損失。這一突破有望降低AI部署成本,加速長上下文應用發展。
谷歌推出TurboQuant技術,通過壓縮KV緩存,有效解決大語言模型推理中的內存瓶頸問題,可在不降低精度的前提下大幅減少內存佔用,提升處理長文本和複雜任務的效率。