Claude Code发布两大更新:MCP工具搜索支持动态加载,减少上下文占用;提示交互功能增强,提升使用灵活性。这些改进已逐步推送,旨在优化开发者体验。
DeepSeek发布V3.2标准版与深度思考版。评测显示,V3.2在128k上下文场景下与GPT-5互有胜负;深度思考版在多项基准测试中与Gemini3Pro持平,并在IMO2025盲测中达到金牌分数线。核心升级是转正稀疏注意力技术,通过优化token路由,显著降低了长文本的计算复杂度、显存占用,并提升了推理速度,首次在开源模型中实现了百万token的单卡推理能力。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
$0.7
$7
$35
Alibaba
$4
$16
$6
$24
256
$2
$20
-
Bytedance
$0.8
$0.15
$1.5
Baidu
32
$10.5
$8
Tencent
$1
$0.75
$0.35
400
QuantTrio
MiniMax-M2-AWQ是基于MiniMaxAI/MiniMax-M2模型的量化版本,通过vLLM框架实现高效的文本生成。该模型采用AWQ量化技术,在保持模型性能的同时显著减少内存占用和提升推理速度,支持32K上下文长度和工具调用功能。
gabriellarson
Llama-3.3-Nemotron-Super-49B-v1.5是NVIDIA开发的高效大语言模型,基于Meta Llama-3.3-70B-Instruct衍生而来。该模型在推理、聊天交互和代理任务方面表现出色,通过神经架构搜索技术显著降低了内存占用,支持128K令牌的上下文长度,在数学、代码、科学和工具调用等多方面能力得到增强。
Agent MCP Gateway 是一个模型上下文协议(MCP)网关,用于聚合多个下游MCP服务器并提供基于策略的访问控制。它通过按需工具发现机制,解决了Claude Code等开发环境中所有工具定义在启动时全部加载导致上下文窗口浪费的问题,可将上下文占用减少90%以上。