蚂蚁百灵大模型今日开源万亿参数旗舰模型Ling-2.6-1T,采用MLA与LinearAttention混合架构实现“快思考”机制,提升智效比,在评测中展现高Token效率,解决真实生产流中的效率难题。
大模型竞争焦点正从性能比拼转向企业场景的规模化应用,追求低成本、高效率。蚂蚁数科推出Ling-2.6-flash商业版LingDT-2.6-flash,主打“Token效率”,相比同参数级别模型可节省90%Token消耗,更快更省,适配企业真实场景大规模部署。
Google DeepMind推出Gemini 3.1 Flash-Lite模型,实现AI生成式网页渲染的突破。该模型响应速度较前代提升2.5倍,每秒可输出超360个Token,大幅提升推理效率,推动AI从文本交互向动态UI构建发展。
月之暗面创始人杨植麟在英伟达GTC2026大会上首次系统披露Kimi K2.5模型技术路线图,强调大模型发展已进入“后Scaling时代”,需重构底层逻辑,而非单纯堆砌算力。他指出,突破智能上限关键在于优化器、注意力机制及残差连接等核心技术的革新。
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
Anthropic
$105
$525
$0.7
$7
$35
$17.5
Alibaba
-
$4
$16
$2
$20
$6
$24
256
Bytedance
$0.8
128
$0.15
$1.5
Baidu
32
$10.5
$8
nvidia
Llama-3.3-Nemotron-Super-49B-v1.5是基于Meta Llama-3.3-70B-Instruct的大语言模型,经过多阶段后训练增强了推理和非推理能力。支持128K token上下文长度,在准确性和效率之间取得了良好平衡,适用于推理、聊天和代理任务。
microsoft
微软研究院开发的首个开源20亿参数规模原生1比特大语言模型,在4万亿token语料上训练完成,证明了原生1比特大语言模型在保持与同规模全精度开源模型相当性能的同时,能显著提升计算效率。
由微软研究院开发的开源原生1位大语言模型,参数规模达20亿,在4万亿token的语料库上训练而成,显著提升计算效率。
Llama-3.1-Nemotron-Ultra-253B-CPT-v1是基于Meta Llama-3.1-405B-Instruct的大型语言模型,支持128K tokens上下文长度,经过神经架构搜索优化,在准确性和效率之间取得良好平衡。
OneMCP是一个通用的MCP协议聚合器,通过元工具架构将多个外部MCP服务器的工具统一管理,采用渐进式发现和语义搜索技术,显著降低LLM的token消耗并提高工具发现效率。
Notion MCP服务器是一个中间件服务,通过Notion API实现LLM与Notion工作区的交互,支持Markdown转换优化token使用效率。