中国电信人工智能研究院开源星辰语义大模型TeleChat3系列,包括千亿参数MoE模型和稠密架构模型。该系列完全基于国产万卡算力池训练,数据规模达15万亿tokens,实现全栈国产化,标志着我国超大规模AI模型自主可控取得关键突破。
字节跳动在火山引擎大会上发布豆包大模型1.8和视频生成模型Seedance 1.5 Pro,并推出“AI节省计划”以降低企业成本。豆包大模型在推理、多语言等方面显著提升,Seedance则优化了视频生成质量与时长。
12月18日,火山引擎在FORCE原动力大会上宣布,豆包大模型日均Tokens使用量已突破50万亿,位居中国第一、全球第三。同时,公司正式发布了豆包大模型1.8与视频生成模型Seedance1.5pro。豆包1.8在多模态Agent场景中深度优化,视觉理解能力显著提升,支持超长视频分析,并在工具调用和复杂指令遵循方面达到全球领先水平。
火山引擎总裁谭待在FORCE原动力大会上公布,截至2025年12月,豆包大模型日均Tokens调用量突破50万亿,较2024年5月发布时增长417倍,下半年增速尤为显著。相比2024年12月,调用量同比激增超10倍。目前已有超100家企业通过火山引擎平台使用豆包大模型。
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
$0.7
$7
$35
Alibaba
$4
$16
$6
$24
256
$2
$20
-
Bytedance
$0.8
$0.15
$1.5
Baidu
32
$10.5
Tencent
$1
$8
$0.75
$0.35
400
cpatonn
Qwen3-Next-80B-A3B-Instruct-AWQ-4bit是基于Qwen3-Next-80B-A3B-Instruct模型进行4位AWQ量化的高效版本。该模型采用混合注意力机制和高稀疏专家混合架构,支持长达262K tokens的上下文长度,在保持高性能的同时大幅降低计算资源需求。
NVFP4
Qwen3-30B-A3B-Thinking-2507是一款在推理能力和通用能力上有显著提升的大型语言模型,增强了长上下文理解能力,适用于高度复杂的推理任务。该模型具有305亿参数,其中激活33亿参数,支持262,144 tokens的长上下文处理。
QuantTrio
Qwen3-30B-A3B-Thinking-2507-AWQ是基于Qwen/Qwen3-30B-A3B-Thinking-2507基础模型进行量化的高效推理模型。该模型在推理任务、通用能力和长上下文理解方面有显著提升,专门针对高度复杂的推理任务进行了优化,支持262,144 tokens的长上下文处理。
Qwen3-30B-A3B-Thinking-2507是经过量化处理的大语言模型,具有增强的推理能力、通用能力和长上下文理解能力。该模型采用混合专家架构,在逻辑推理、数学、科学、编码等复杂任务上表现出色,支持262,144 tokens的长上下文处理。
unsloth
Devstral 1.1是由Mistral AI和All Hands AI合作开发的智能大语言模型,专为软件工程任务设计。该模型在SWE-bench基准测试中表现出色,位列开源模型榜首,拥有240亿参数和128k tokens的长上下文窗口。
lmstudio-community
基于英伟达AceReason-Nemotron-7B的GGUF量化版本,专注于数学与代码推理,支持128k tokens长上下文
基于英伟达AceReason-Nemotron-14B的GGUF量化版本,专注于数学与代码推理任务,支持128k tokens长上下文
Llama-3.3-Nemotron-Super-49B-v1 是一个大型语言模型,基于 Meta Llama-3.3-70B-Instruct 改进,增强了推理能力、人类聊天偏好以及任务执行能力,支持 128K tokens 的上下文长度。
kakaocorp
Kanana 1.5是Kakao开发的双语大语言模型,在编程、数学和函数调用能力方面有显著提升,支持32K tokens上下文长度,通过YaRN扩展技术可处理128K tokens超长文本。
Kanana 1.5是Kanana模型家族的新版本,在编码、数学和函数调用能力方面相比前代有显著提升,支持32K tokens长度并可扩展至128K tokens。
由英伟达发布的4B参数规模大语言模型,支持128k tokens上下文长度,专为推理、对话及RAG等任务优化
AM Thinking v1是由A-M团队开发的基于Qwen 2.5-32B-Base的大语言模型,增强推理能力,支持132k tokens的上下文长度。
Mungert
OpenCodeReasoning-Nemotron-14B 是基于 Qwen2.5-14B-Instruct 进行后训练的大型语言模型,专为代码生成推理优化,支持32K tokens上下文长度。
INTELLECT 2是由PrimeIntellect推出的大语言模型,支持40960 tokens的上下文长度,采用QwQ架构和GRPO强化学习框架训练。
OpenCodeReasoning-Nemotron-32B 是基于 Qwen2.5-32B-Instruct 的代码生成推理模型,支持32K tokens上下文长度,适用于商业和非商业用途。
Kevin 32B是由Cognition AI开发的大语言模型,支持超长上下文(40960 tokens),专注于CUDA内核生成和强化学习任务。
Qwen3-32B是由Qwen团队开发的大语言模型,支持131,072 tokens的上下文长度,具备强大的数学、编程和常识推理能力。
Qwen3-1.7B是由Qwen开发的1.7B参数规模的大语言模型,支持32k tokens超长上下文,擅长创意写作、角色扮演和多轮对话。
Qwen3-4B是由Qwen开发的大语言模型,支持131,072 tokens的上下文长度,擅长创意写作、角色扮演和多轮对话。
由Qwen开发的大语言模型,支持131,072 tokens上下文长度,擅长创意写作、角色扮演和多轮对话。
TokenScope是一个面向大型语言模型的令牌感知目录探索工具,提供智能目录结构分析、文件内容令牌感知提取、令牌使用统计和综合报告生成功能。
该项目实现了一个基于Gemini API的MCP服务器,提供对多种技术文档的访问能力。通过2M tokens的大上下文窗口,无需传统RAG系统的分块或检索步骤,直接处理完整文档。支持查询文档、检查代码规范、解决问题提示等功能,适用于Roo/Cline环境。
LayerZero OFT MCP是一个基于TypeScript/Node.js的模型上下文协议服务器,用于创建、部署和跨链桥接Omnichain Fungible Tokens(OFTs)。它通过抽象化跨链交互的复杂性,提供了一个结构化的、上下文感知的层,便于与LLM代理、机器人或需要去中心化跨链功能的应用程序集成。
该项目实现了一个MCP服务器,用于连接TokenMetrics加密货币数据API,提供市场数据分析、交易策略回测和可视化功能,支持算法交易系统开发。