2026火山引擎FORCE原动力大会上,总裁谭待发布豆包大模型2.1Pro,并公布日均Tokens用量突破180万亿,较2024年5月1200亿的初始规模增长1500倍,业务渗透力极强。新模型重点升级代码生成、智能Agent及多模态能力。
阶跃星辰发布并开源新一代Flash模型Step 3.7 Flash,专为智能体生产化落地设计。该模型采用196B参数的稀疏混合专家架构,针对代码编写、联网搜索及多模态工作流进行系统级优化,最高生成速度达每秒400 Tokens,显著提升高频场景效率,标志着国内大模型赛道取得新突破。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://app.aibase.com/zh1、上下文150万tokens!支付宝还推出了全球化AI支付解决方案,助力AI商业生态的发展。
开发者意外发现OpenAI未官宣的GPT-5.6大模型,内部代号“iris-alpha”,预计6月发布。其关键突破是150万token超长上下文窗口,较GPT-5.5提升43%,打破纪录。
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
$0.7
$7
$35
Alibaba
$4
$16
$6
$24
256
$2
$20
-
Bytedance
$0.8
$0.15
$1.5
Baidu
32
$10.5
Tencent
$1
$8
$0.75
$0.35
400
cpatonn
Qwen3-Next-80B-A3B-Instruct-AWQ-4bit是基于Qwen3-Next-80B-A3B-Instruct模型进行4位AWQ量化的高效版本。该模型采用混合注意力机制和高稀疏专家混合架构,支持长达262K tokens的上下文长度,在保持高性能的同时大幅降低计算资源需求。
NVFP4
Qwen3-30B-A3B-Thinking-2507是一款在推理能力和通用能力上有显著提升的大型语言模型,增强了长上下文理解能力,适用于高度复杂的推理任务。该模型具有305亿参数,其中激活33亿参数,支持262,144 tokens的长上下文处理。
QuantTrio
Qwen3-30B-A3B-Thinking-2507-AWQ是基于Qwen/Qwen3-30B-A3B-Thinking-2507基础模型进行量化的高效推理模型。该模型在推理任务、通用能力和长上下文理解方面有显著提升,专门针对高度复杂的推理任务进行了优化,支持262,144 tokens的长上下文处理。
Qwen3-30B-A3B-Thinking-2507是经过量化处理的大语言模型,具有增强的推理能力、通用能力和长上下文理解能力。该模型采用混合专家架构,在逻辑推理、数学、科学、编码等复杂任务上表现出色,支持262,144 tokens的长上下文处理。
unsloth
Devstral 1.1是由Mistral AI和All Hands AI合作开发的智能大语言模型,专为软件工程任务设计。该模型在SWE-bench基准测试中表现出色,位列开源模型榜首,拥有240亿参数和128k tokens的长上下文窗口。
lmstudio-community
基于英伟达AceReason-Nemotron-7B的GGUF量化版本,专注于数学与代码推理,支持128k tokens长上下文
基于英伟达AceReason-Nemotron-14B的GGUF量化版本,专注于数学与代码推理任务,支持128k tokens长上下文
Llama-3.3-Nemotron-Super-49B-v1 是一个大型语言模型,基于 Meta Llama-3.3-70B-Instruct 改进,增强了推理能力、人类聊天偏好以及任务执行能力,支持 128K tokens 的上下文长度。
kakaocorp
Kanana 1.5是Kakao开发的双语大语言模型,在编程、数学和函数调用能力方面有显著提升,支持32K tokens上下文长度,通过YaRN扩展技术可处理128K tokens超长文本。
Kanana 1.5是Kanana模型家族的新版本,在编码、数学和函数调用能力方面相比前代有显著提升,支持32K tokens长度并可扩展至128K tokens。
由英伟达发布的4B参数规模大语言模型,支持128k tokens上下文长度,专为推理、对话及RAG等任务优化
AM Thinking v1是由A-M团队开发的基于Qwen 2.5-32B-Base的大语言模型,增强推理能力,支持132k tokens的上下文长度。
Mungert
OpenCodeReasoning-Nemotron-14B 是基于 Qwen2.5-14B-Instruct 进行后训练的大型语言模型,专为代码生成推理优化,支持32K tokens上下文长度。
INTELLECT 2是由PrimeIntellect推出的大语言模型,支持40960 tokens的上下文长度,采用QwQ架构和GRPO强化学习框架训练。
OpenCodeReasoning-Nemotron-32B 是基于 Qwen2.5-32B-Instruct 的代码生成推理模型,支持32K tokens上下文长度,适用于商业和非商业用途。
Kevin 32B是由Cognition AI开发的大语言模型,支持超长上下文(40960 tokens),专注于CUDA内核生成和强化学习任务。
Qwen3-32B是由Qwen团队开发的大语言模型,支持131,072 tokens的上下文长度,具备强大的数学、编程和常识推理能力。
Qwen3-1.7B是由Qwen开发的1.7B参数规模的大语言模型,支持32k tokens超长上下文,擅长创意写作、角色扮演和多轮对话。
Qwen3-4B是由Qwen开发的大语言模型,支持131,072 tokens的上下文长度,擅长创意写作、角色扮演和多轮对话。
由Qwen开发的大语言模型,支持131,072 tokens上下文长度,擅长创意写作、角色扮演和多轮对话。
TokenScope是一个面向大型语言模型的令牌感知目录探索工具,提供智能目录结构分析、文件内容令牌感知提取、令牌使用统计和综合报告生成功能。
该项目实现了一个基于Gemini API的MCP服务器,提供对多种技术文档的访问能力。通过2M tokens的大上下文窗口,无需传统RAG系统的分块或检索步骤,直接处理完整文档。支持查询文档、检查代码规范、解决问题提示等功能,适用于Roo/Cline环境。
LayerZero OFT MCP是一个基于TypeScript/Node.js的模型上下文协议服务器,用于创建、部署和跨链桥接Omnichain Fungible Tokens(OFTs)。它通过抽象化跨链交互的复杂性,提供了一个结构化的、上下文感知的层,便于与LLM代理、机器人或需要去中心化跨链功能的应用程序集成。
该项目实现了一个MCP服务器,用于连接TokenMetrics加密货币数据API,提供市场数据分析、交易策略回测和可视化功能,支持算法交易系统开发。