亚马逊调整Anthropic模型服务定价,由按“计算小时”转为按“Token数量”计费,标志AI算力成本管理更趋精细化。此举升级了成本核算方式,能更精准反映不同任务的实际算力消耗,克服传统模式单一粗放的局限。
微软拟在Copilot Cowork中引入自托管DeepSeek V4,打造更经济的模型选项,并将定价全面转为按用量计费。此前基于Anthropic Claude的智能体因推理任务激增,Token消耗巨大,原有固定费率在用户每周执行数百项任务的重度使用下难以为继。
微信支付发布AI接入工具箱2.0版,基于初代产品及用户反馈,围绕安全、高效、原生流畅三大方向升级。新版本支持9种语言,并针对微信支付业务概念进行原生语义适配,避免机器直译偏差,助力全球开发者用母语无障碍完成集成。
百度旗下企业级通用智能体“百度搭子DuMate”于6月15日完成核心引擎升级,首次通过Harness引擎及工程优化,在保持智能能力与任务效果不变的前提下,将任务执行Token消耗降低75%,用户积分消耗同步减少75%。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
$0.7
$7
$35
Alibaba
$4
$16
$2
$20
-
$6
$24
256
Bytedance
$0.8
$0.15
$1.5
Baidu
32
$10.5
$8
Tencent
$1
$0.75
$0.35
400
rhysjones
该模型源自karpathy的llm.c项目,为研究bfloat16性能而转换为HuggingFace格式,训练过程消耗了1500亿token。
princeton-nlp
Sheared-LLaMA-2.7B是基于Llama-2-7b通过剪枝和继续预训练得到的轻量级语言模型,仅消耗50B tokens预算。
MCP文本编辑器服务器是一个基于Model Context Protocol的文本文件编辑服务,提供行导向的文本文件操作能力,支持高效的部分文件访问以减少LLM工具的token消耗。具备并发编辑检测、多文件原子操作和多种编码支持等特性。
godoc-mcp是一个高效的Go文档访问工具,通过MCP协议为LLM提供结构化、低token消耗的Go项目文档访问服务,支持本地和远程包文档查询。
OneTool是一个统一的MCP服务器,通过Python API暴露100多种工具,大幅减少AI调用工具时的token消耗和成本,避免上下文污染,支持Web搜索、数据库、文件操作、图表绘制等多种功能。
用于对xcstrings(字符串目录)文件进行增删改查操作的CLI工具和MCP服务器,提供针对性的本地化键值管理,避免AI助手处理大型文件时消耗过多token。
一个基于MCP协议的内存缓存服务器,通过高效缓存语言模型交互数据来减少token消耗,支持自动管理和配置优化。
NCP是一个MCP协议智能编排器,将多个MCP服务器统一管理,通过语义理解自动路由工具调用,大幅减少AI工具的认知负担和token消耗,提升AI助手的工作效率和响应速度。
MCP BatchIt是一个MCP工具调用批处理服务器,通过聚合多个MCP工具调用到一个请求中,显著减少AI代理的通信开销和token消耗。
一个优化的Playwright MCP服务器,采用客户端-服务端架构实现浏览器自动化,通过创新的语义快照算法大幅减少页面内容传输量,保留关键元素的同时降低90%的token消耗。
OneMCP是一个通用的MCP协议聚合器,通过元工具架构将多个外部MCP服务器的工具统一管理,采用渐进式发现和语义搜索技术,显著降低LLM的token消耗并提高工具发现效率。
基于语义搜索的代码导航MCP服务器,通过AI嵌入和AST解析实现高效代码检索,减少token消耗