xAI发布Grok4.1,响应延迟降低42%,意图识别准确率提升18%,对话连贯性优化。基于Grok-4MoE架构,新增实时反馈层与个性化缓存,实现“秒回”体验。面向X Premium+用户无限使用,API定价维持每百万token 5美元。MT-Bench得分8.97,HumanEval代码生成通过率87.1%,多轮对话一致性达91.4%,刷新多项基准纪录。
FutureHouse推出AI科研系统Kosmos,12小时可处理1500篇论文、生成4.2万行代码,产出相当于人类团队半年工作量。系统基于结构化世界模型,在超千万token中保持逻辑连贯,已在神经科学等领域完成7项发现,含4项首次报道。其自主循环架构实现文献检索、知识图谱更新与规划迭代。
脑机接口正式升级为国家战略技术,写入“十四五”规划。市场规模预计从2024年32亿元增至2040年1200亿元,年均增长26%。意念控制等科幻场景正加速融入现实,推动数字经济发展。
AMD于2025年11月11日收购AI推理初创公司MK1,旨在强化其在AI推理领域的战略布局。MK1的核心技术“Flywheel”与AMD的Instinct GPU深度优化,日处理超万亿token,显著提升推理能力。收购后,MK1团队将并入AMD AI事业部,助力公司巩固市场地位。
智能AI令牌管理和优化
一款通过向AI基金经理Lucy推销token来说服其投资的货币实验性游戏。
支持100万Token上下文的开源Qwen模型,适用于长序列处理任务
持续搜索和阅读网页,直到找到答案(或超出token预算)。
google
$9
输入tokens/百万
$72
输出tokens/百万
1M
上下文长度
chatglm
$4.03
$7.99
128k
minimax
-
deepseek
$15.98
$2.02
$5.98
$0.72
$2.88
$2.16
$18
$0.86
$1.3
perplexity
127k
baidu
$2
$8
32k
200k
meta
$6.48
$1
4M
azure
Ali-Yaser
本模型是基于meta-llama/Llama-3.3-70B-Instruct进行微调得到的版本,使用mlabonne/FineTome-100k数据集进行训练,包含100k token数据。模型采用Unsloth和Huggingface TRL库进行微调,支持英文语言处理。
inclusionAI
Ming-flash-omni 预览版是基于 Ling-Flash-2.0 稀疏专家混合(MoE)架构构建的多模态大模型,总参数达100B,每个token仅激活6B参数。该模型在Ming-Omni基础上进行了全面升级,在多模态理解和生成方面有显著提升,特别是在语音识别、图像生成和分割编辑方面表现突出。
Downtown-Case
GLM 4.6是一款专为128GB内存+单GPU配置优化的量化模型,采用IQ_K量化方式,相比主流llama.cpp在相同大小下提供更好的质量和性能。该模型需要配合ik_llama.cpp使用,在128GB双通道DDR5内存、单CCD Ryzen 7000处理器+单张3090显卡配置下,文本生成速度可达每秒约6.8个token。
cpatonn
Qwen3-Next-80B-A3B-Instruct-AWQ-4bit是基于Qwen3-Next-80B-A3B-Instruct模型进行4位AWQ量化的高效版本。该模型采用混合注意力机制和高稀疏专家混合架构,支持长达262K tokens的上下文长度,在保持高性能的同时大幅降低计算资源需求。
gabriellarson
Seed-OSS是由字节跳动Seed团队开发的开源大语言模型系列,具备强大的长上下文处理、推理和智能体交互能力。仅使用12T token训练,在多个公开基准测试中表现出色,支持高达512K的原生长上下文处理。
ByteDance-Seed
Seed-OSS是由字节跳动Seed团队开发的开源大语言模型系列,具备强大的长上下文处理、推理、智能体交互能力和通用性能。该模型仅使用12T token训练,在多个公开基准测试中表现出色。
NVFP4
Qwen3-30B-A3B-Thinking-2507是一款在推理能力和通用能力上有显著提升的大型语言模型,增强了长上下文理解能力,适用于高度复杂的推理任务。该模型具有305亿参数,其中激活33亿参数,支持262,144 tokens的长上下文处理。
QuantTrio
Qwen3-30B-A3B-Thinking-2507-AWQ是基于Qwen/Qwen3-30B-A3B-Thinking-2507基础模型进行量化的高效推理模型。该模型在推理任务、通用能力和长上下文理解方面有显著提升,专门针对高度复杂的推理任务进行了优化,支持262,144 tokens的长上下文处理。
Qwen3-30B-A3B-Thinking-2507是经过量化处理的大语言模型,具有增强的推理能力、通用能力和长上下文理解能力。该模型采用混合专家架构,在逻辑推理、数学、科学、编码等复杂任务上表现出色,支持262,144 tokens的长上下文处理。
nvidia
Llama-3.3-Nemotron-Super-49B-v1.5是基于Meta Llama-3.3-70B-Instruct的大语言模型,经过多阶段后训练增强了推理和非推理能力。支持128K token上下文长度,在准确性和效率之间取得了良好平衡,适用于推理、聊天和代理任务。
DavidAU
这是一个基于Qwen 3平台的编码/编程模型,具备完整的推理能力,速度极快。在中等硬件上每秒能处理超过150个token,仅使用CPU时每秒也能处理50个以上token。它是一个通用的编码模型,适用于生成代码块、构思编码思路以及快速生成代码草稿。
internlm
Intern-S1是目前最先进的开源多模态推理模型,结合了强大的通用任务处理能力和在广泛科学任务中的卓越性能,可与领先的闭源商业模型相媲美。该模型在5T token数据集上进行持续预训练,其中超过50%是专业科学数据,具备动态分词器能够原生理解分子式、蛋白质序列和地震信号。
FlameF0X
SnowflakeCore-G1-Tiny2是基于GPT风格的自定义Transformer语言模型,是SnowflakeCore-G1-Tiny的改进版本。该模型使用PyTorch从头构建,在common-pile/wikimedia_filtered数据集上训练,拥有约4亿参数,支持2048 token上下文窗口,专为文本生成任务设计。
unsloth
Devstral 1.1是由Mistral AI和All Hands AI合作开发的智能大语言模型,专为软件工程任务设计。该模型在SWE-bench基准测试中表现出色,位列开源模型榜首,拥有240亿参数和128k tokens的长上下文窗口。
lmstudio-community
基于Transformer架构的文本生成模型,专注于软件工程任务,支持40k token的上下文长度。
百度ERNIE 4.5 0.3B是基于Transformer架构的双语文本生成模型,在通用语言理解和生成任务上表现优异,支持中英双语处理,上下文长度达128k token。
SynthLabsAI
ALP_DeepScaleR_1.5B_C16K是基于DeepScaleR-1.5B模型,采用自适应长度惩罚(ALP)方法进行训练的模型,能在保持性能的同时显著减少token使用量。
基于英伟达AceReason-Nemotron-7B的GGUF量化版本,专注于数学与代码推理,支持128k tokens长上下文
基于英伟达AceReason-Nemotron-14B的GGUF量化版本,专注于数学与代码推理任务,支持128k tokens长上下文
Llama-3.3-Nemotron-Super-49B-v1 是一个大型语言模型,基于 Meta Llama-3.3-70B-Instruct 改进,增强了推理能力、人类聊天偏好以及任务执行能力,支持 128K tokens 的上下文长度。
HiveChat是一个专为中小团队设计的AI聊天应用,支持多种大模型服务商,提供分组管理、Token限额、第三方登录等功能。
MCP文本编辑器服务器是一个基于Model Context Protocol的文本文件编辑服务,提供行导向的文本文件操作能力,支持高效的部分文件访问以减少LLM工具的token消耗。具备并发编辑检测、多文件原子操作和多种编码支持等特性。
钉钉MCP服务是一个基于Model Control Protocol的钉钉API访问服务,提供获取token、部门及用户信息等功能。
godoc-mcp是一个高效的Go文档访问工具,通过MCP协议为LLM提供结构化、低token消耗的Go项目文档访问服务,支持本地和远程包文档查询。
一个与AI代码编辑器集成的MCP服务器,通过Gemini 2.5的百万token上下文窗口和任务管理功能,优化Cursor的代理能力。
一个MCP服务器项目,提供基于token数量自动选择OpenAI O3或Google Gemini 2.5 Pro模型的服务,支持文件路径递归嵌入提示词,适用于代码审查和复杂问题解决。
MCP Chain of Draft Prompt Tool是一个增强LLM推理能力的工具,通过将标准提示转换为Chain of Draft或Chain of Thought格式,显著提高推理质量并减少token使用。
NCP是一个MCP协议智能编排器,将多个MCP服务器统一管理,通过语义理解自动路由工具调用,大幅减少AI工具的认知负担和token消耗,提升AI助手的工作效率和响应速度。
一个基于MCP协议的内存缓存服务器,通过高效缓存语言模型交互数据来减少token消耗,支持自动管理和配置优化。
基于Gemini的上下文管理与缓存MCP服务器,支持2M token大上下文窗口,提供会话管理和API缓存功能。
bonk-mcp服务器实现了Solana区块链功能,支持在LetsBonk平台上创建和交易代币。
基于Notion的Markdown导航MCP服务,实现无token访问与智能笔记管理
Token Minter MCP是一个支持21条区块链的ERC-20代币铸造服务,提供代币部署、转账、查询等工具集。
MCP BatchIt是一个MCP工具调用批处理服务器,通过聚合多个MCP工具调用到一个请求中,显著减少AI代理的通信开销和token消耗。
一个封装V2EX官方API 2.0的服务器,提供通知管理、用户信息、节点话题等接口功能,支持通过npm全局安装并配置token使用。
一个用于检查和撤销ERC-20代币授权的MCP服务器,增强安全性和控制力。
TokenScope是一个面向大型语言模型的令牌感知目录探索工具,提供智能目录结构分析、文件内容令牌感知提取、令牌使用统计和综合报告生成功能。
一个优化的Playwright MCP服务器,采用客户端-服务端架构实现浏览器自动化,通过创新的语义快照算法大幅减少页面内容传输量,保留关键元素的同时降低90%的token消耗。
一个高性能的Raydium DEX代币狙击工具,集成Claude AI支持自然语言交互,具备多区域部署和快速执行能力。
该项目实现了一个基于Gemini API的MCP服务器,提供对多种技术文档的访问能力。通过2M tokens的大上下文窗口,无需传统RAG系统的分块或检索步骤,直接处理完整文档。支持查询文档、检查代码规范、解决问题提示等功能,适用于Roo/Cline环境。