OpenAI在OpenRouter平台匿名上线代号"Polaris Alpha"的大模型,疑似传闻中的GPT-5.1。该模型具备256K上下文窗口,知识截止至2024年10月,性能表现引发开发者密集测试。在Gemini3、Claude4.5等竞品压力下,此举被视为OpenAI年底市场竞争的重要布局。
谷歌Gemini系列AI模型迎来新进展,预览版"gemini-3-pro-preview-11-2025"在Vertex AI平台被发现,预计本月正式推出。该模型支持100万token超大上下文窗口,标识明确指向11月发布。Vertex AI作为谷歌云端AI开发核心工具,已在网络日志中暴露相关信息。
谷歌与印度信实工业旗下Jio合作,在印度推出免费AI套餐。符合条件的Jio用户可获18个月Google AI Pro服务,价值约3万元人民币。套餐包含Gemini2.5Pro模型访问权限,支持深度研究功能和百万级令牌上下文窗口,旨在推动AI技术在印度普及应用。
OpenAI发布GPT-5 Pro API,具备40万Token上下文窗口,支持图像输入,可处理复杂长文本。定价为每百万Token15美元,推动AI应用普及。这是该公司迄今最强大的模型。
将LLM上下文窗口扩展至200万令牌的技术
扩展LLM上下文窗口
扩展大语言模型的上下文窗口
全球最长上下文窗口大模型
google
$9
Input tokens/M
$72
Output tokens/M
1M
Context Length
$2.16
$18
alibaba
$0.72
128k
anthropic
$108
$540
200k
$21.6
baidu
$4
$16
meta
$1.22
$4.32
mistral
-
$2.88
$2
$8
32k
$0.58
10M
$0.5
$1.01
openai
$14.4
$43.2
xai
Mungert
aquif-3.5系列中的顶尖模型,具备先进推理能力和100万标记的大上下文窗口,在多个基准测试中表现卓越,AAII综合得分达到60分。
unsloth
aquif-3.5系列是2025年11月3日发布的巅峰之作,包含Plus和Max两个版本,提供先进的推理能力和前所未有的100万标记上下文窗口,在各自类别中实现了最先进的性能。
moonshotai
Kimi K2 Thinking 是月之暗面(Moonshot AI)开发的最新一代开源思维模型,具有强大的深度推理能力和工具调用功能。该模型采用混合专家架构,支持原生INT4量化,拥有256k上下文窗口,在多个基准测试中表现出色。
GLM-4.6是智谱AI推出的新一代文本生成模型,相比GLM-4.5在多个方面有显著改进,包括更长的上下文窗口、更优的编码性能和更强的推理能力。该模型在多个公开基准测试中表现出色,与国内外领先模型相比具有竞争优势。
zai-org
GLM-4.6-FP8是智谱AI推出的新一代文本生成模型,相比GLM-4.5在多个关键方面有显著改进。该模型具有更长的上下文窗口、卓越的编码性能、高级推理能力和更强大的智能体功能,能够处理更复杂的任务。
prithivMLmods
Gemma 3 270M是谷歌推出的轻量级多模态模型,基于与Gemini系列相同的研究技术,支持文本和图像输入,具有32K上下文窗口,在问答、总结、图像理解和代码生成等任务上提供高质量输出。
Gemma 3是谷歌推出的轻量级开源多模态模型系列,基于与Gemini相同技术构建。270M版本是其中最小规模模型,支持文本和图像输入,具备128K上下文窗口,适用于资源受限环境部署。
Gemma 3是谷歌推出的轻量级开源多模态模型家族,能够处理文本和图像输入并生成文本输出。具有128K大上下文窗口,支持140多种语言,适用于文本生成和图像理解等多种任务。
Gemma 3是Google推出的轻量级、最先进的多模态开放模型家族,基于与Gemini模型相同的研究和技术构建。该模型能够处理文本和图像输入并生成文本输出,具有128K的大上下文窗口,支持超过140种语言,提供从270M到27B的多种尺寸选择。
Gemma 3是谷歌推出的轻量级、最先进的多模态开放模型家族,能够处理文本和图像输入并生成文本输出。具有128K大上下文窗口,支持超过140种语言,提供从270M到27B多种规模选择,适用于各种文本生成和图像理解任务。
Qwen3代码推理是一个参数量为40亿的紧凑型模型,在nvidia/OpenCodeReasoning上进行了微调,专门为编码和逻辑推理任务而设计。该模型在代码生成和逻辑问答方面表现出色,支持超过10000个标记的上下文窗口。
FlameF0X
SnowflakeCore-G1-Tiny2是基于GPT风格的自定义Transformer语言模型,是SnowflakeCore-G1-Tiny的改进版本。该模型使用PyTorch从头构建,在common-pile/wikimedia_filtered数据集上训练,拥有约4亿参数,支持2048 token上下文窗口,专为文本生成任务设计。
专为软件工程项目打造的高效语言模型,轻量级设计,支持128k大上下文窗口,适用于复杂编码任务。
Mozilla
Qwen3-4B是Qwen系列最新一代的大语言模型,具有4B参数规模,支持128k上下文窗口和100多种语言,在推理、指令遵循和代理能力方面表现优异。
FractalAIResearch
以499美元训练成本实现的14B参数数学推理模型,在16K上下文窗口下达到媲美闭源o4-mini的性能
DavidAU
基于千问3-30B-A3B的混合专家模型微调版本,激活专家数提升至16,上下文窗口扩展至128k,适合复杂推理场景
JetBrains
JetBrains首个开源大语言模型(LLM)的微调版本,专为Python代码相关任务优化,支持8192 token上下文窗口。
ibm-granite
Granite-4.0-Tiny-Base-Preview 是IBM开发的70亿参数混合专家(MoE)语言模型,具有128k token上下文窗口,采用Mamba-2技术增强表达能力。
JetBrains首个专为代码相关任务优化的开源大语言模型,支持8192token上下文窗口,覆盖多种编程语言
bullerwins
Gemma 3是谷歌推出的轻量级、最先进的多模态开放模型,可处理文本和图像输入并生成文本输出。具有128K大上下文窗口和多语言支持,适用于多种文本生成和图像理解任务,能在资源有限的环境中部署。
一个结合Claude Code和Google Gemini AI的MCP服务器,通过多模型协作实现深度代码分析,Claude擅长本地上下文操作和CLI工作流,Gemini则利用其超大上下文窗口进行分布式系统调试和长轨迹分析。
Qwen MCP工具是一个基于模型上下文协议的服务器,可将Qwen CLI与AI助手集成,提供大上下文窗口分析、文件处理、沙箱执行和多模型支持等功能
一个基于TypeScript的MCP服务器,实现LLM查询系统,支持任务委派和上下文窗口卸载。
一个用于扩展AI代理上下文窗口/记忆的MCP服务器,支持存储、检索和管理记忆,包含语义搜索功能。
一个与AI代码编辑器集成的MCP服务器,通过Gemini 2.5的百万token上下文窗口和任务管理功能,优化Cursor的代理能力。
基于Gemini的上下文管理与缓存MCP服务器,支持2M token大上下文窗口,提供会话管理和API缓存功能。
一个高性能的MCP服务器,为LLM与MongoDB之间提供高效的知识接口,支持小上下文窗口优化和多种领域数据模型。
Screeny MCP Server是一个专为macOS设计的隐私优先截图服务,允许AI代理安全捕获预先批准的应用程序窗口截图,为开发和调试任务提供视觉上下文。
MCP Analyst是一个MCP服务器,支持Claude分析本地的CSV或Parquet文件,适用于处理超出上下文窗口限制的大型数据集或需要优化成本的场景。
一个为AI工作流设计的智能文本摘要MCP服务器,提供命令输出、文件内容和目录结构的智能摘要功能,优化AI代理的上下文窗口管理。
dap-mcp是一个基于模型上下文协议(MCP)的调试适配器协议(DAP)实现,旨在优化和扩展大型语言模型的上下文窗口,以增强调试工作流程。
dap-mcp是一个基于MCP协议的DAP会话管理工具,旨在优化和扩展大型语言模型的上下文窗口,提升调试工作流。
Alpha Vantage MCP是一个提供股票和金融数据访问的模型上下文协议服务器,整合了Alpha Vantage所有API端点功能,并通过优化端点组织减少上下文窗口使用。
一个用于扩展AI代理上下文窗口/记忆的MCP服务器,支持存储、检索和管理记忆内容,包含语义搜索功能。
一个为AI代理提供智能文本摘要功能的MCP服务器,优化上下文窗口管理并提升AI工作效率
一个基于Node.js的Deepseek R1语言模型MCP服务器实现,支持8192令牌上下文窗口,提供稳定的Claude Desktop集成和模型参数配置。
该项目实现了一个基于Gemini API的MCP服务器,提供对多种技术文档的访问能力。通过2M tokens的大上下文窗口,无需传统RAG系统的分块或检索步骤,直接处理完整文档。支持查询文档、检查代码规范、解决问题提示等功能,适用于Roo/Cline环境。
Claude Crew是一个创建自主编码代理的工具,专注于通过高效上下文窗口使用最大化成本效益,优先通过单元测试验证操作,并提供项目优化的MCP和上下文信息。
Temp Notes MCP Server是一个为AI代理设计的临时信息存储服务,支持跨对话和上下文存储、检索临时笔记,帮助解决复杂任务中的上下文窗口限制问题。
一个基于Gemini的MCP服务器实现,提供强大的上下文管理和缓存功能,支持高达200万token的上下文窗口,适用于多种AI客户端集成。