OpenRouter平台近日上线代号“Pony Alpha”的免费模型,性能强大,支持200K上下文窗口和131K输出令牌,在编码、推理等方面表现突出,引发业界关注。
2026年2月5日,Anthropic发布新一代旗舰模型Claude Opus4.6,距上代仅隔两个月,迭代速度极快。本次更新聚焦提升“自主性”与“任务持久力”,核心突破包括首次在Opus级别引入100万token上下文窗口,并强化模型“自主意识”,使其从对话工具向智能体方向进化。
Anthropic 推出新一代旗舰AI模型Claude Opus4.6,更新节奏迅速。新版本聚焦“自主性”与“生产力”,旨在为开发者和企业办公提供深度智能化支持。技术亮点包括首次引入100万token超大上下文窗口,显著提升模型处理长文本能力。
Cohere发布Rerank4搜索模型,上下文窗口扩展至32K,比前代提升四倍。该模型能处理更长文档,同时评估多个段落,捕捉短窗口无法识别的关联,显著提升真实文档的排名准确性,帮助AI代理更高效地完成任务。
将LLM上下文窗口扩展至200万令牌的技术
扩展LLM上下文窗口
扩展大语言模型的上下文窗口
全球最长上下文窗口大模型
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
$0.7
$7
$35
Alibaba
$4
$16
$2
$20
-
$6
$24
256
Bytedance
$0.8
$0.15
$1.5
Baidu
32
$10.5
Tencent
$1
$8
$0.75
$0.35
400
ExaltedSlayer
Gemma 3是谷歌推出的轻量级开源多模态模型,本版本为12B参数的指令调优量化感知训练模型,已转换为MLX框架的MXFP4格式,支持文本和图像输入并生成文本输出,具有128K上下文窗口和140+语言支持。
Mungert
aquif-3.5系列中的顶尖模型,具备先进推理能力和100万标记的大上下文窗口,在多个基准测试中表现卓越,AAII综合得分达到60分。
unsloth
aquif-3.5系列是2025年11月3日发布的巅峰之作,包含Plus和Max两个版本,提供先进的推理能力和前所未有的100万标记上下文窗口,在各自类别中实现了最先进的性能。
moonshotai
Kimi K2 Thinking 是月之暗面(Moonshot AI)开发的最新一代开源思维模型,具有强大的深度推理能力和工具调用功能。该模型采用混合专家架构,支持原生INT4量化,拥有256k上下文窗口,在多个基准测试中表现出色。
Gemma 3 27B IT QAT的MLX MXFP4量化版本,是由Google开发的轻量级开源多模态模型。该模型能够同时处理文本和图像输入并生成文本输出,拥有128K大上下文窗口,支持超过140种语言,适用于多种文本生成和图像理解任务。
richardyoung
这是一个高性能的4位量化版本的Kimi K2 Instruct模型,专为使用MLX框架在Apple Silicon(M1/M2/M3/M4)Mac上运行而优化。该模型拥有6710亿参数,支持128K上下文窗口,在质量和效率之间实现了出色的平衡,是大多数实际部署的理想选择。
这是一个基于Mistral Small 3.2构建的24B参数高效推理模型,转换为MLX-MXFP4格式。模型具有增强的推理能力,支持多模态输入,拥有128k上下文窗口,可在RTX 4090或32GB RAM的MacBook上运行。
GLM-4.6是智谱AI推出的新一代文本生成模型,相比GLM-4.5在多个方面有显著改进,包括更长的上下文窗口、更优的编码性能和更强的推理能力。该模型在多个公开基准测试中表现出色,与国内外领先模型相比具有竞争优势。
zai-org
GLM-4.6-FP8是智谱AI推出的新一代文本生成模型,相比GLM-4.5在多个关键方面有显著改进。该模型具有更长的上下文窗口、卓越的编码性能、高级推理能力和更强大的智能体功能,能够处理更复杂的任务。
prithivMLmods
Gemma 3 270M是谷歌推出的轻量级多模态模型,基于与Gemini系列相同的研究技术,支持文本和图像输入,具有32K上下文窗口,在问答、总结、图像理解和代码生成等任务上提供高质量输出。
Gemma 3是谷歌推出的轻量级开源多模态模型系列,基于与Gemini相同技术构建。270M版本是其中最小规模模型,支持文本和图像输入,具备128K上下文窗口,适用于资源受限环境部署。
Gemma 3是谷歌推出的轻量级开源多模态模型家族,能够处理文本和图像输入并生成文本输出。具有128K大上下文窗口,支持140多种语言,适用于文本生成和图像理解等多种任务。
google
Gemma 3是Google推出的轻量级、最先进的多模态开放模型家族,基于与Gemini模型相同的研究和技术构建。该模型能够处理文本和图像输入并生成文本输出,具有128K的大上下文窗口,支持超过140种语言,提供从270M到27B的多种尺寸选择。
Gemma 3是谷歌推出的轻量级、最先进的多模态开放模型家族,能够处理文本和图像输入并生成文本输出。具有128K大上下文窗口,支持超过140种语言,提供从270M到27B多种规模选择,适用于各种文本生成和图像理解任务。
Qwen3代码推理是一个参数量为40亿的紧凑型模型,在nvidia/OpenCodeReasoning上进行了微调,专门为编码和逻辑推理任务而设计。该模型在代码生成和逻辑问答方面表现出色,支持超过10000个标记的上下文窗口。
FlameF0X
SnowflakeCore-G1-Tiny2是基于GPT风格的自定义Transformer语言模型,是SnowflakeCore-G1-Tiny的改进版本。该模型使用PyTorch从头构建,在common-pile/wikimedia_filtered数据集上训练,拥有约4亿参数,支持2048 token上下文窗口,专为文本生成任务设计。
专为软件工程项目打造的高效语言模型,轻量级设计,支持128k大上下文窗口,适用于复杂编码任务。
Mozilla
Qwen3-4B是Qwen系列最新一代的大语言模型,具有4B参数规模,支持128k上下文窗口和100多种语言,在推理、指令遵循和代理能力方面表现优异。
FractalAIResearch
以499美元训练成本实现的14B参数数学推理模型,在16K上下文窗口下达到媲美闭源o4-mini的性能
DavidAU
基于千问3-30B-A3B的混合专家模型微调版本,激活专家数提升至16,上下文窗口扩展至128k,适合复杂推理场景
一个结合Claude Code和Google Gemini AI的MCP服务器,通过多模型协作实现深度代码分析,Claude擅长本地上下文操作和CLI工作流,Gemini则利用其超大上下文窗口进行分布式系统调试和长轨迹分析。
Qwen MCP工具是一个基于模型上下文协议的服务器,可将Qwen CLI与AI助手集成,提供大上下文窗口分析、文件处理、沙箱执行和多模型支持等功能
一个基于TypeScript的MCP服务器,实现LLM查询系统,支持任务委派和上下文窗口卸载。
一个与AI代码编辑器集成的MCP服务器,通过Gemini 2.5的百万token上下文窗口和任务管理功能,优化Cursor的代理能力。
MCP代理工具,通过单一查询接口智能调用多个上游MCP服务,节省上下文窗口资源
一个用于扩展AI代理上下文窗口/记忆的MCP服务器,支持存储、检索和管理记忆,包含语义搜索功能。
MCP Analyst是一个MCP服务器,支持Claude分析本地的CSV或Parquet文件,适用于处理超出上下文窗口限制的大型数据集或需要优化成本的场景。
一个高性能的MCP服务器,为LLM与MongoDB之间提供高效的知识接口,支持小上下文窗口优化和多种领域数据模型。
Screeny MCP Server是一个专为macOS设计的隐私优先截图服务,允许AI代理安全捕获预先批准的应用程序窗口截图,为开发和调试任务提供视觉上下文。
基于Gemini的上下文管理与缓存MCP服务器,支持2M token大上下文窗口,提供会话管理和API缓存功能。
一个为AI工作流设计的智能文本摘要MCP服务器,提供命令输出、文件内容和目录结构的智能摘要功能,优化AI代理的上下文窗口管理。
dap-mcp是一个基于模型上下文协议(MCP)的调试适配器协议(DAP)实现,旨在优化和扩展大型语言模型的上下文窗口,以增强调试工作流程。
dap-mcp是一个基于MCP协议的DAP会话管理工具,旨在优化和扩展大型语言模型的上下文窗口,提升调试工作流。
Alpha Vantage MCP是一个提供股票和金融数据访问的模型上下文协议服务器,整合了Alpha Vantage所有API端点功能,并通过优化端点组织减少上下文窗口使用。
一个为AI代理提供智能文本摘要功能的MCP服务器,优化上下文窗口管理并提升AI工作效率
一个用于扩展AI代理上下文窗口/记忆的MCP服务器,支持存储、检索和管理记忆内容,包含语义搜索功能。
Token Optimizer MCP是一个智能令牌优化MCP服务器,通过智能缓存、压缩和工具替换,可将上下文窗口使用量减少60-90%,支持Claude Code和Claude Desktop等AI工具。
一个基于Node.js的Deepseek R1语言模型MCP服务器实现,支持8192令牌上下文窗口,提供稳定的Claude Desktop集成和模型参数配置。
Agent MCP Gateway 是一个模型上下文协议(MCP)网关,用于聚合多个下游MCP服务器并提供基于策略的访问控制。它通过按需工具发现机制,解决了Claude Code等开发环境中所有工具定义在启动时全部加载导致上下文窗口浪费的问题,可将上下文占用减少90%以上。
Claude Crew是一个创建自主编码代理的工具,专注于通过高效上下文窗口使用最大化成本效益,优先通过单元测试验证操作,并提供项目优化的MCP和上下文信息。