Meta公司于2026年5月13日在WhatsApp及独立Meta AI应用中推出“隐身模式”,允许用户在隔离环境下与AI对话,解决隐私数据留存问题。开启后,对话记录不存储,关闭窗口或应用时自动终止会话并清除上下文信息。
Anthropic 的 Claude Code 推出“Agent View”功能,作为研究预览版交互界面,允许开发者通过单一视图集中管理多个并行 AI 编程会话,解决此前依赖终端标签页导致的窗口管理与上下文切换难题,显著提升大规模并发任务的调度效率。
DeepSeek创始人梁文锋近日透露,新一代旗舰大模型DeepSeek V4拟定于2026年4月下旬发布,标志着国产大模型在万亿级参数赛道迎来关键突破。近期网页端已上线“快速模式”与“专家模式”,通过差异化交互完成发布前实战预演。技术层面,V4预计将实现万亿级参数规模及百万级上下文窗口。
微软Bing团队开源词嵌入模型Harrier,支持超100种语言,在MTEB v2基准测试中表现优异。模型基于20亿示例及GPT-5合成数据训练,采用32,000词元上下文窗口,具备27亿参数,显著提升多语言任务准确性与灵活性。
将LLM上下文窗口扩展至200万令牌的技术
扩展LLM上下文窗口
扩展大语言模型的上下文窗口
全球最长上下文窗口大模型
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
$0.7
$7
$35
Alibaba
$4
$16
$2
$20
-
$6
$24
256
Bytedance
$0.8
$0.15
$1.5
Baidu
32
$10.5
Tencent
$1
$8
$0.75
$0.35
400
ExaltedSlayer
Gemma 3是谷歌推出的轻量级开源多模态模型,本版本为12B参数的指令调优量化感知训练模型,已转换为MLX框架的MXFP4格式,支持文本和图像输入并生成文本输出,具有128K上下文窗口和140+语言支持。
Mungert
aquif-3.5系列中的顶尖模型,具备先进推理能力和100万标记的大上下文窗口,在多个基准测试中表现卓越,AAII综合得分达到60分。
unsloth
aquif-3.5系列是2025年11月3日发布的巅峰之作,包含Plus和Max两个版本,提供先进的推理能力和前所未有的100万标记上下文窗口,在各自类别中实现了最先进的性能。
moonshotai
Kimi K2 Thinking 是月之暗面(Moonshot AI)开发的最新一代开源思维模型,具有强大的深度推理能力和工具调用功能。该模型采用混合专家架构,支持原生INT4量化,拥有256k上下文窗口,在多个基准测试中表现出色。
Gemma 3 27B IT QAT的MLX MXFP4量化版本,是由Google开发的轻量级开源多模态模型。该模型能够同时处理文本和图像输入并生成文本输出,拥有128K大上下文窗口,支持超过140种语言,适用于多种文本生成和图像理解任务。
richardyoung
这是一个高性能的4位量化版本的Kimi K2 Instruct模型,专为使用MLX框架在Apple Silicon(M1/M2/M3/M4)Mac上运行而优化。该模型拥有6710亿参数,支持128K上下文窗口,在质量和效率之间实现了出色的平衡,是大多数实际部署的理想选择。
这是一个基于Mistral Small 3.2构建的24B参数高效推理模型,转换为MLX-MXFP4格式。模型具有增强的推理能力,支持多模态输入,拥有128k上下文窗口,可在RTX 4090或32GB RAM的MacBook上运行。
GLM-4.6是智谱AI推出的新一代文本生成模型,相比GLM-4.5在多个方面有显著改进,包括更长的上下文窗口、更优的编码性能和更强的推理能力。该模型在多个公开基准测试中表现出色,与国内外领先模型相比具有竞争优势。
zai-org
GLM-4.6-FP8是智谱AI推出的新一代文本生成模型,相比GLM-4.5在多个关键方面有显著改进。该模型具有更长的上下文窗口、卓越的编码性能、高级推理能力和更强大的智能体功能,能够处理更复杂的任务。
prithivMLmods
Gemma 3 270M是谷歌推出的轻量级多模态模型,基于与Gemini系列相同的研究技术,支持文本和图像输入,具有32K上下文窗口,在问答、总结、图像理解和代码生成等任务上提供高质量输出。
Gemma 3是谷歌推出的轻量级开源多模态模型系列,基于与Gemini相同技术构建。270M版本是其中最小规模模型,支持文本和图像输入,具备128K上下文窗口,适用于资源受限环境部署。
Gemma 3是谷歌推出的轻量级开源多模态模型家族,能够处理文本和图像输入并生成文本输出。具有128K大上下文窗口,支持140多种语言,适用于文本生成和图像理解等多种任务。
google
Gemma 3是Google推出的轻量级、最先进的多模态开放模型家族,基于与Gemini模型相同的研究和技术构建。该模型能够处理文本和图像输入并生成文本输出,具有128K的大上下文窗口,支持超过140种语言,提供从270M到27B的多种尺寸选择。
Gemma 3是谷歌推出的轻量级、最先进的多模态开放模型家族,能够处理文本和图像输入并生成文本输出。具有128K大上下文窗口,支持超过140种语言,提供从270M到27B多种规模选择,适用于各种文本生成和图像理解任务。
Qwen3代码推理是一个参数量为40亿的紧凑型模型,在nvidia/OpenCodeReasoning上进行了微调,专门为编码和逻辑推理任务而设计。该模型在代码生成和逻辑问答方面表现出色,支持超过10000个标记的上下文窗口。
FlameF0X
SnowflakeCore-G1-Tiny2是基于GPT风格的自定义Transformer语言模型,是SnowflakeCore-G1-Tiny的改进版本。该模型使用PyTorch从头构建,在common-pile/wikimedia_filtered数据集上训练,拥有约4亿参数,支持2048 token上下文窗口,专为文本生成任务设计。
专为软件工程项目打造的高效语言模型,轻量级设计,支持128k大上下文窗口,适用于复杂编码任务。
Mozilla
Qwen3-4B是Qwen系列最新一代的大语言模型,具有4B参数规模,支持128k上下文窗口和100多种语言,在推理、指令遵循和代理能力方面表现优异。
FractalAIResearch
以499美元训练成本实现的14B参数数学推理模型,在16K上下文窗口下达到媲美闭源o4-mini的性能
DavidAU
基于千问3-30B-A3B的混合专家模型微调版本,激活专家数提升至16,上下文窗口扩展至128k,适合复杂推理场景
一个结合Claude Code和Google Gemini AI的MCP服务器,通过多模型协作实现深度代码分析,Claude擅长本地上下文操作和CLI工作流,Gemini则利用其超大上下文窗口进行分布式系统调试和长轨迹分析。
Qwen MCP工具是一个基于模型上下文协议的服务器,可将Qwen CLI与AI助手集成,提供大上下文窗口分析、文件处理、沙箱执行和多模型支持等功能
一个专为大型语言模型优化的MCP服务器,用于反混淆、解包和导航经过压缩与打包的JavaScript代码,帮助LLM理解复杂代码结构并节省上下文窗口。
AiDex是一个MCP服务器,为AI编程助手提供对整个代码库的即时访问,通过持久化预构建索引实现快速精准的代码搜索,支持11种编程语言,包含28种工具,可大幅减少AI上下文窗口的浪费。
一个基于TypeScript的MCP服务器,实现LLM查询系统,支持任务委派和上下文窗口卸载。
MCP代理工具,通过单一查询接口智能调用多个上游MCP服务,节省上下文窗口资源
一个与AI代码编辑器集成的MCP服务器,通过Gemini 2.5的百万token上下文窗口和任务管理功能,优化Cursor的代理能力。
一个用于扩展AI代理上下文窗口/记忆的MCP服务器,支持存储、检索和管理记忆,包含语义搜索功能。
一个高性能的MCP服务器,为LLM与MongoDB之间提供高效的知识接口,支持小上下文窗口优化和多种领域数据模型。
基于Gemini的上下文管理与缓存MCP服务器,支持2M token大上下文窗口,提供会话管理和API缓存功能。
MCP Analyst是一个MCP服务器,支持Claude分析本地的CSV或Parquet文件,适用于处理超出上下文窗口限制的大型数据集或需要优化成本的场景。
一个为AI工作流设计的智能文本摘要MCP服务器,提供命令输出、文件内容和目录结构的智能摘要功能,优化AI代理的上下文窗口管理。
Screeny MCP Server是一个专为macOS设计的隐私优先截图服务,允许AI代理安全捕获预先批准的应用程序窗口截图,为开发和调试任务提供视觉上下文。
dap-mcp是一个基于模型上下文协议(MCP)的调试适配器协议(DAP)实现,旨在优化和扩展大型语言模型的上下文窗口,以增强调试工作流程。
Alpha Vantage MCP是一个提供股票和金融数据访问的模型上下文协议服务器,整合了Alpha Vantage所有API端点功能,并通过优化端点组织减少上下文窗口使用。
dap-mcp是一个基于MCP协议的DAP会话管理工具,旨在优化和扩展大型语言模型的上下文窗口,提升调试工作流。
一个为AI代理提供智能文本摘要功能的MCP服务器,优化上下文窗口管理并提升AI工作效率
一个用于扩展AI代理上下文窗口/记忆的MCP服务器,支持存储、检索和管理记忆内容,包含语义搜索功能。
一个基于Node.js的Deepseek R1语言模型MCP服务器实现,支持8192令牌上下文窗口,提供稳定的Claude Desktop集成和模型参数配置。
Token Optimizer MCP是一个智能令牌优化MCP服务器,通过智能缓存、压缩和工具替换,可将上下文窗口使用量减少60-90%,支持Claude Code和Claude Desktop等AI工具。