AMD联合IBM与Zyphra推出全球首个全AMD硬件训练的MoE模型ZAYA1,预训练14万亿token,性能媲美Qwen3系列,数学推理接近专业版。采用128节点×8张MI300X显卡集群,算力达750PFLOPs。创新CCA注意力机制融合卷积与压缩嵌入,数据采用课程学习从通用到专业领域过渡。后续将发布优化版本。
谷歌发布Gemini3,首次提供100万tokens上下文窗口,原生支持文本、图像、视频与代码多模态推理。Gemini3 Pro在GPQA测试获91.9%准确率,LMArena以1501分超越GPT-5.1与Claude4.5登顶。采用Deep Think推理模式,通过“思维签名”产品化推理链,在逻辑、事实与科学推理方面表现突出。
阿里通义千问推出Qwen3-Max模型,新增“深度思考”模式,通过强化推理链分析和多步骤问题拆解,显著提升复杂任务处理效率。该模型参数量超1万亿,预训练数据达36T tokens,是目前规模最大、能力最强的版本,在代码和智能体能力方面均有明显进步。
Kimi公司推出面向开发者的增值会员计划“Kimi For Coding”,提供强大工具与服务,兼容Kimi CLI、Claude Code和RooCode等开发工具,助力提升开发效率和响应速度。会员每5小时可发起100至500次请求,系统响应速度最高达每秒100个Tokens。
chatglm
$4.03
输入tokens/百万
$7.99
输出tokens/百万
128k
上下文长度
deepseek
$15.98
$2.02
$5.98
google
$0.72
$2.88
1M
$2.16
$18
$0.5
-
bytedance
$3
$9
32k
cpatonn
Qwen3-Next-80B-A3B-Instruct-AWQ-4bit是基于Qwen3-Next-80B-A3B-Instruct模型进行4位AWQ量化的高效版本。该模型采用混合注意力机制和高稀疏专家混合架构,支持长达262K tokens的上下文长度,在保持高性能的同时大幅降低计算资源需求。
NVFP4
Qwen3-30B-A3B-Thinking-2507是一款在推理能力和通用能力上有显著提升的大型语言模型,增强了长上下文理解能力,适用于高度复杂的推理任务。该模型具有305亿参数,其中激活33亿参数,支持262,144 tokens的长上下文处理。
QuantTrio
Qwen3-30B-A3B-Thinking-2507-AWQ是基于Qwen/Qwen3-30B-A3B-Thinking-2507基础模型进行量化的高效推理模型。该模型在推理任务、通用能力和长上下文理解方面有显著提升,专门针对高度复杂的推理任务进行了优化,支持262,144 tokens的长上下文处理。
Qwen3-30B-A3B-Thinking-2507是经过量化处理的大语言模型,具有增强的推理能力、通用能力和长上下文理解能力。该模型采用混合专家架构,在逻辑推理、数学、科学、编码等复杂任务上表现出色,支持262,144 tokens的长上下文处理。
unsloth
Devstral 1.1是由Mistral AI和All Hands AI合作开发的智能大语言模型,专为软件工程任务设计。该模型在SWE-bench基准测试中表现出色,位列开源模型榜首,拥有240亿参数和128k tokens的长上下文窗口。
lmstudio-community
基于英伟达AceReason-Nemotron-7B的GGUF量化版本,专注于数学与代码推理,支持128k tokens长上下文
基于英伟达AceReason-Nemotron-14B的GGUF量化版本,专注于数学与代码推理任务,支持128k tokens长上下文
Llama-3.3-Nemotron-Super-49B-v1 是一个大型语言模型,基于 Meta Llama-3.3-70B-Instruct 改进,增强了推理能力、人类聊天偏好以及任务执行能力,支持 128K tokens 的上下文长度。
kakaocorp
Kanana 1.5是Kakao开发的双语大语言模型,在编程、数学和函数调用能力方面有显著提升,支持32K tokens上下文长度,通过YaRN扩展技术可处理128K tokens超长文本。
Kanana 1.5是Kanana模型家族的新版本,在编码、数学和函数调用能力方面相比前代有显著提升,支持32K tokens长度并可扩展至128K tokens。
由英伟达发布的4B参数规模大语言模型,支持128k tokens上下文长度,专为推理、对话及RAG等任务优化
AM Thinking v1是由A-M团队开发的基于Qwen 2.5-32B-Base的大语言模型,增强推理能力,支持132k tokens的上下文长度。
Mungert
OpenCodeReasoning-Nemotron-14B 是基于 Qwen2.5-14B-Instruct 进行后训练的大型语言模型,专为代码生成推理优化,支持32K tokens上下文长度。
INTELLECT 2是由PrimeIntellect推出的大语言模型,支持40960 tokens的上下文长度,采用QwQ架构和GRPO强化学习框架训练。
OpenCodeReasoning-Nemotron-32B 是基于 Qwen2.5-32B-Instruct 的代码生成推理模型,支持32K tokens上下文长度,适用于商业和非商业用途。
Kevin 32B是由Cognition AI开发的大语言模型,支持超长上下文(40960 tokens),专注于CUDA内核生成和强化学习任务。
Qwen3-32B是由Qwen团队开发的大语言模型,支持131,072 tokens的上下文长度,具备强大的数学、编程和常识推理能力。
Qwen3-1.7B是由Qwen开发的1.7B参数规模的大语言模型,支持32k tokens超长上下文,擅长创意写作、角色扮演和多轮对话。
Qwen3-4B是由Qwen开发的大语言模型,支持131,072 tokens的上下文长度,擅长创意写作、角色扮演和多轮对话。
由Qwen开发的大语言模型,支持131,072 tokens上下文长度,擅长创意写作、角色扮演和多轮对话。
TokenScope是一个面向大型语言模型的令牌感知目录探索工具,提供智能目录结构分析、文件内容令牌感知提取、令牌使用统计和综合报告生成功能。
该项目实现了一个基于Gemini API的MCP服务器,提供对多种技术文档的访问能力。通过2M tokens的大上下文窗口,无需传统RAG系统的分块或检索步骤,直接处理完整文档。支持查询文档、检查代码规范、解决问题提示等功能,适用于Roo/Cline环境。
LayerZero OFT MCP是一个基于TypeScript/Node.js的模型上下文协议服务器,用于创建、部署和跨链桥接Omnichain Fungible Tokens(OFTs)。它通过抽象化跨链交互的复杂性,提供了一个结构化的、上下文感知的层,便于与LLM代理、机器人或需要去中心化跨链功能的应用程序集成。
该项目实现了一个MCP服务器,用于连接TokenMetrics加密货币数据API,提供市场数据分析、交易策略回测和可视化功能,支持算法交易系统开发。