谷歌推出TurboQuant算法,通过PolarQuant和QJL技术,将大语言模型推理中的键值缓存内存需求降低至少6倍,在H100 GPU上注意力计算速度提升最高8倍,且保持零精度损失。这一突破有望降低AI部署成本,加速长上下文应用发展。
谷歌推出TurboQuant技术,通过压缩KV缓存,有效解决大语言模型推理中的内存瓶颈问题,可在不降低精度的前提下大幅减少内存占用,提升处理长文本和复杂任务的效率。