近期,Google 宣布在其 Gemini API 中推出一项新功能 —— 隐式缓存。这一功能旨在帮助第三方开发者在使用最新 AI 模型时节省成本,最高可达75% 的费用节约,尤其是在处理重复性上下文时效果显著。

QQ_1746755605079.png

 隐式缓存的工作原理

隐式缓存的核心在于,它能够自动识别并重用之前请求中相似的内容。Google 表示,这项新功能已默认开启,适用于 Gemini2.5Pro 和2.5Flash 模型。当开发者向 Gemini2.5模型发送请求时,如果该请求与之前的某个请求存在相同的前缀,就有可能命中缓存,从而实现成本节约。

QQ_1746755617338.png

与此前的显式缓存不同,开发者在使用隐式缓存时不再需要手动定义高频请求。显式缓存的方式虽然承诺了节省成本,但由于其需要大量手动配置,导致许多开发者对此颇感不满,尤其是在最近几周关于 API 费用过高的投诉不断增加。

隐式缓存的优势

隐式缓存的最大优势在于其自动化程度。Google 在其官方博客中指出,当请求的上下文信息与先前请求相似时,系统会自动返回成本节约。这种方式简化了开发者的操作流程,减轻了他们的负担。

根据 Google 的开发者文档,隐式缓存的最低提示令牌数为2,048(针对2.5Pro 模型)和1,024(针对2.5Flash 模型),这意味着开发者只需提供少量信息即可触发自动节省。令牌是模型处理的数据基本单元,大约1,000个令牌相当于750个单词。

使用建议与注意事项

为了更好地利用隐式缓存,Google 建议开发者在请求的开头尽量放置重复的上下文内容,以增加命中缓存的几率。而可能会在请求间变化的上下文信息,则建议放在请求的末尾。

尽管 Google 对此次隐式缓存的效果充满信心,但尚未提供第三方验证,因此开发者在使用过程中仍需保持谨慎。随着越来越多的开发者开始使用这一新功能,我们期待他们的反馈能够验证 Google 的承诺。

总的来说,Google 的隐式缓存功能无疑为开发者提供了一个降低成本的新选择。在 AI 模型的使用成本持续上升的背景下,这项创新功能的推出将对开发者社区产生积极影响。未来,随着反馈的积累,我们也将看到这一功能的实际效果。

官方博客:https://developers.googleblog.com/en/gemini-2-5-models-now-support-implicit-caching/