谷歌推出TurboQuant算法,通過PolarQuant和QJL技術,將大語言模型推理中的鍵值緩存內存需求降低至少6倍,在H100 GPU上注意力計算速度提升最高8倍,且保持零精度損失。這一突破有望降低AI部署成本,加速長上下文應用發展。