美团近日启动万亿参数级AI大模型测试,该模型完全基于国产算力集群训练,标志着国产技术应用取得重大突破。目前仅对受邀用户开放,尚未全面普及,展现了美团在AI领域的领先布局。
月之暗面推出专为AI编程优化的万亿参数大模型Kimi K2.6-code-preview,已在Kimi Code上线,标志着国产编程AI进入万亿参数时代。该模型在K2.5基础上深度优化,重点提升推理深度、代码生成可靠性和多轮对话能力,思维链表现更强,代码生成更稳定,支持复杂编程任务。
软银牵头成立日本AI基础模型公司,联合本田、索尼、NEC及三大银行等8家企业,并获政府支持。公司计划招募百名顶尖人才,目标在2030年前开发出参数规模达1万亿的“物理AI”大模型,推动日本自主研发。
DeepSeek创始人梁文锋近日透露,新一代旗舰大模型DeepSeek V4拟定于2026年4月下旬发布,标志着国产大模型在万亿级参数赛道迎来关键突破。近期网页端已上线“快速模式”与“专家模式”,通过差异化交互完成发布前实战预演。技术层面,V4预计将实现万亿级参数规模及百万级上下文窗口。
万亿参数MoE文本大模型
Alibaba
$4
Input tokens/M
$16
Output tokens/M
1k
Context Length
$1
$10
256
$6
$24
$2
$20
-
Moonshot
Baidu
32
Xai
$1.4
$10.5
Tencent
Deepseek
$12
128
Openai
$0.4
$0.75
64
$0.63
$3.15
131
24
almanach
Gaperon-Young-1125-1B 是一个拥有15亿参数的双语(法语-英语)语言模型,由法国国家信息与自动化研究所(Inria Paris)的ALMAnaCH团队开发。该模型在约3万亿个高质量令牌上训练,特别注重语言质量和通用文本生成能力,而非基准测试优化。
Gaperon-1125-24B是一个拥有240亿参数的双语(法语-英语)语言模型,经过约2万亿标记的训练,能够熟练处理法语、英语和编码任务。该模型采用OLMo-2架构,旨在实现大规模、高质量文本生成和出色任务性能之间的最佳平衡。
thenexthub
OpenModel-1T-A50B-Instruct是NeXTHub开发的万亿参数混合专家模型,结合进化思维链训练方法,在推理能力和能源效率上取得平衡,具备深度推理能力和128K长上下文处理能力。
inclusionAI
LLaDA-MoE是基于扩散原理构建的新型混合专家语言模型,是首个开源的MoE扩散大语言模型,在约20万亿个标记上从头预训练,总参数70亿,推理时仅激活14亿参数,在代码生成和数学推理等任务中表现卓越。
DevQuasar
Kimi K2 是一款先进的混合专家(MoE)语言模型,拥有 320 亿激活参数和 1 万亿总参数,针对代理能力进行了优化。
unsloth
Kimi K2是一款先进的混合专家(MoE)语言模型,具备320亿激活参数和1万亿总参数,针对智能代理能力进行了优化。
moonshotai
Kimi K2是一款先进的混合专家(MoE)语言模型,拥有320亿激活参数和1万亿总参数,针对智能体能力进行了优化。
Kimi K2 是一款先进的混合专家(MoE)语言模型,拥有 320 亿激活参数和 1 万亿总参数,针对智能体能力进行了优化。
Qwen3-4B-Base是Qwen系列最新一代基础版本大语言模型,具有40亿参数,支持119种语言,在36万亿标记的多语言数据上预训练,提供强大的自然语言处理能力。
Qwen
Qwen3-4B-Base是通义千问系列最新一代40亿参数大语言模型,基于36万亿token的多语言数据预训练,支持32k上下文长度。
microsoft
微软研究院开发的首个开源、原生1比特的大语言模型,参数规模达20亿,在4万亿token的语料库上训练而成。
微软研究院开发的首个开源20亿参数规模原生1比特大语言模型,在4万亿token语料上训练完成,证明了原生1比特大语言模型在保持与同规模全精度开源模型相当性能的同时,能显著提升计算效率。
由微软研究院开发的开源原生1位大语言模型,参数规模达20亿,在4万亿token的语料库上训练而成,显著提升计算效率。
dongyh
FANformer-1B是通过创新周期性机制增强语言建模能力的自回归模型,具有11亿非嵌入参数,训练token量达1万亿。
stockmark
Stockmark-2-100B是一个专注于日语能力的1000亿参数大语言模型,基于1.5万亿token的多语言数据预训练,并通过日语合成数据增强指令跟随能力。
openGPT-X
Teuken 7B-base-v0.6是一个拥有70亿参数的多语言大语言模型,在OpenGPT-X研究项目中基于6万亿个标记进行了预训练。该模型专为欧盟24种官方语言的私有、非商业、研究和教育用途设计,能在多语言环境中提供稳定的性能。
OpenLLM-France
Lucie-7B是由LINAGORA和OpenLLM-France联合构建的70亿参数多语言因果语言模型,基于Llama-3架构,在3万亿令牌的多语言数据上预训练而成。
cortexso
TinyLlama是一个11亿参数的小型大语言模型,在3万亿个标记上进行了预训练,并在ChatGPT生成的合成对话数据上进行了微调,旨在提供高效的对话能力。
tensoropera
Fox-1-1.6B是由TensorOpera AI开发的16亿参数小型语言模型,采用分组查询注意力机制,训练数据达3万亿文本和代码。
CofeAI
Tele-FLM是一个拥有520亿参数的开源多语言大语言模型,基于仅解码器的Transformer架构构建,在约2万亿个标记上进行训练。具备稳定高效的预训练范式和强大的事实判断能力,在同等规模下表现卓越,有时甚至超越更大的模型。