中国企业通用人工智能需求激增,2025年下半年日均调用量达37万亿tokens,较上半年增长263%,显示市场应用加速落地。
沙利文报告显示,2025年下半年中国企业级大模型市场爆发增长,日均调用量激增263%至37万亿tokens。市场竞争激烈,头部效应显著,阿里云千问表现强劲,市场份额从17.7%跃升至32.1%,稳居行业第一,字节跳动豆包紧随其后。
阿里发布旗舰推理模型Qwen3-Max-Thinking,参数量超万亿,预训练数据达36T Tokens。该模型通过强化学习训练,在事实知识、数学推理等方面表现优异,已接入千问PC端和网页端,App即将支持。用户可一键切换体验更强推理能力。
国产AI芯片与大模型协同优化取得重要进展。摩尔线程与硅基流动基于国产GPU MTT S5000,成功完成对千亿参数大模型DeepSeek V3 671B的深度适配。通过应用FP8低精度推理技术,实现单卡预填充吞吐量超4000 tokens/秒,解码吞吐量超1000 tokens/秒,推理速度已接近国际主流高端AI加速器水平。
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
$0.7
$7
$35
Alibaba
$4
$16
$2
$20
-
$6
$24
256
Bytedance
$0.8
$0.15
$1.5
Baidu
32
$10.5
$8
Tencent
$1
$0.75
$0.35
400
cpatonn
Qwen3-Next-80B-A3B-Instruct-AWQ-4bit是基于Qwen3-Next-80B-A3B-Instruct模型进行4位AWQ量化的高效版本。该模型采用混合注意力机制和高稀疏专家混合架构,支持长达262K tokens的上下文长度,在保持高性能的同时大幅降低计算资源需求。
NVFP4
Qwen3-30B-A3B-Thinking-2507是一款在推理能力和通用能力上有显著提升的大型语言模型,增强了长上下文理解能力,适用于高度复杂的推理任务。该模型具有305亿参数,其中激活33亿参数,支持262,144 tokens的长上下文处理。
QuantTrio
Qwen3-30B-A3B-Thinking-2507-AWQ是基于Qwen/Qwen3-30B-A3B-Thinking-2507基础模型进行量化的高效推理模型。该模型在推理任务、通用能力和长上下文理解方面有显著提升,专门针对高度复杂的推理任务进行了优化,支持262,144 tokens的长上下文处理。
Qwen3-30B-A3B-Thinking-2507是经过量化处理的大语言模型,具有增强的推理能力、通用能力和长上下文理解能力。该模型采用混合专家架构,在逻辑推理、数学、科学、编码等复杂任务上表现出色,支持262,144 tokens的长上下文处理。
unsloth
Devstral 1.1是由Mistral AI和All Hands AI合作开发的智能大语言模型,专为软件工程任务设计。该模型在SWE-bench基准测试中表现出色,位列开源模型榜首,拥有240亿参数和128k tokens的长上下文窗口。
lmstudio-community
基于英伟达AceReason-Nemotron-7B的GGUF量化版本,专注于数学与代码推理,支持128k tokens长上下文
基于英伟达AceReason-Nemotron-14B的GGUF量化版本,专注于数学与代码推理任务,支持128k tokens长上下文
Llama-3.3-Nemotron-Super-49B-v1 是一个大型语言模型,基于 Meta Llama-3.3-70B-Instruct 改进,增强了推理能力、人类聊天偏好以及任务执行能力,支持 128K tokens 的上下文长度。
kakaocorp
Kanana 1.5是Kakao开发的双语大语言模型,在编程、数学和函数调用能力方面有显著提升,支持32K tokens上下文长度,通过YaRN扩展技术可处理128K tokens超长文本。
Kanana 1.5是Kanana模型家族的新版本,在编码、数学和函数调用能力方面相比前代有显著提升,支持32K tokens长度并可扩展至128K tokens。
由英伟达发布的4B参数规模大语言模型,支持128k tokens上下文长度,专为推理、对话及RAG等任务优化
AM Thinking v1是由A-M团队开发的基于Qwen 2.5-32B-Base的大语言模型,增强推理能力,支持132k tokens的上下文长度。
Mungert
OpenCodeReasoning-Nemotron-14B 是基于 Qwen2.5-14B-Instruct 进行后训练的大型语言模型,专为代码生成推理优化,支持32K tokens上下文长度。
INTELLECT 2是由PrimeIntellect推出的大语言模型,支持40960 tokens的上下文长度,采用QwQ架构和GRPO强化学习框架训练。
OpenCodeReasoning-Nemotron-32B 是基于 Qwen2.5-32B-Instruct 的代码生成推理模型,支持32K tokens上下文长度,适用于商业和非商业用途。
Kevin 32B是由Cognition AI开发的大语言模型,支持超长上下文(40960 tokens),专注于CUDA内核生成和强化学习任务。
Qwen3-32B是由Qwen团队开发的大语言模型,支持131,072 tokens的上下文长度,具备强大的数学、编程和常识推理能力。
Qwen3-1.7B是由Qwen开发的1.7B参数规模的大语言模型,支持32k tokens超长上下文,擅长创意写作、角色扮演和多轮对话。
Qwen3-4B是由Qwen开发的大语言模型,支持131,072 tokens的上下文长度,擅长创意写作、角色扮演和多轮对话。
由Qwen开发的大语言模型,支持131,072 tokens上下文长度,擅长创意写作、角色扮演和多轮对话。
TokenScope是一个面向大型语言模型的令牌感知目录探索工具,提供智能目录结构分析、文件内容令牌感知提取、令牌使用统计和综合报告生成功能。
该项目实现了一个基于Gemini API的MCP服务器,提供对多种技术文档的访问能力。通过2M tokens的大上下文窗口,无需传统RAG系统的分块或检索步骤,直接处理完整文档。支持查询文档、检查代码规范、解决问题提示等功能,适用于Roo/Cline环境。
LayerZero OFT MCP是一个基于TypeScript/Node.js的模型上下文协议服务器,用于创建、部署和跨链桥接Omnichain Fungible Tokens(OFTs)。它通过抽象化跨链交互的复杂性,提供了一个结构化的、上下文感知的层,便于与LLM代理、机器人或需要去中心化跨链功能的应用程序集成。
该项目实现了一个MCP服务器,用于连接TokenMetrics加密货币数据API,提供市场数据分析、交易策略回测和可视化功能,支持算法交易系统开发。