软银牵头成立日本AI基础模型公司,联合本田、索尼、NEC及三大银行等8家企业,并获政府支持。公司计划招募百名顶尖人才,目标在2030年前开发出参数规模达1万亿的“物理AI”大模型,推动日本自主研发。
小米于2026年春季发布三款自研大模型,包括MiMo-V2-Pro、MiMo-V2-Omni和MiMo-V2-TTS,标志着其全面进军“智能体时代”。创始人宣布,小米今年在AI领域的研发和资本投入将超过160亿元,并透露万亿参数大模型MiMo-V2-Pro在全球大模型竞争中展现技术实力。
OpenRouter平台新增Hunter Alpha与Healer Alpha两款模型。Hunter Alpha参数达1万亿,支持100万token上下文和多模态输入,专为智能体场景设计,擅长复杂推理与多步骤任务。Healer Alpha则具备262K token上下文窗口。两款模型均引发社区关注。
国产AI模型DeepSeek V4预览版已启动闭门内测,代号“海狮轻量版”。新模型相比V3实现跨代升级,原生支持多模态处理,并将上下文窗口大幅提升至100万token,可一次性处理超长文本。
Alibaba
$4
Input tokens/M
$16
Output tokens/M
1k
Context Length
$6
$24
256
$2
$20
-
Bytedance
$0.8
Moonshot
128
$0.15
$1.5
Xai
$1.4
$10.5
Tencent
$1
32
$8
64
Openai
$0.63
$3.15
131
Huawei
Chatglm
Deepseek
almanach
Gaperon-Young-1125-1B 是一个拥有15亿参数的双语(法语-英语)语言模型,由法国国家信息与自动化研究所(Inria Paris)的ALMAnaCH团队开发。该模型在约3万亿个高质量令牌上训练,特别注重语言质量和通用文本生成能力,而非基准测试优化。
thenexthub
OpenModel-1T-A50B-Instruct是NeXTHub开发的万亿参数混合专家模型,结合进化思维链训练方法,在推理能力和能源效率上取得平衡,具备深度推理能力和128K长上下文处理能力。
inclusionAI
LLaDA-MoE是基于扩散原理构建的新型混合专家语言模型,是首个开源的MoE扩散大语言模型,在约20万亿个标记上从头预训练,总参数70亿,推理时仅激活14亿参数,在代码生成和数学推理等任务中表现卓越。
DevQuasar
Kimi K2 是一款先进的混合专家(MoE)语言模型,拥有 320 亿激活参数和 1 万亿总参数,针对代理能力进行了优化。
unsloth
Kimi K2是一款先进的混合专家(MoE)语言模型,具备320亿激活参数和1万亿总参数,针对智能代理能力进行了优化。
moonshotai
Kimi K2是一款先进的混合专家(MoE)语言模型,拥有320亿激活参数和1万亿总参数,针对智能体能力进行了优化。
Kimi K2 是一款先进的混合专家(MoE)语言模型,拥有 320 亿激活参数和 1 万亿总参数,针对智能体能力进行了优化。
Qwen3-4B-Base是Qwen系列最新一代基础版本大语言模型,具有40亿参数,支持119种语言,在36万亿标记的多语言数据上预训练,提供强大的自然语言处理能力。
microsoft
微软研究院开发的首个开源、原生1比特的大语言模型,参数规模达20亿,在4万亿token的语料库上训练而成。
微软研究院开发的首个开源20亿参数规模原生1比特大语言模型,在4万亿token语料上训练完成,证明了原生1比特大语言模型在保持与同规模全精度开源模型相当性能的同时,能显著提升计算效率。
由微软研究院开发的开源原生1位大语言模型,参数规模达20亿,在4万亿token的语料库上训练而成,显著提升计算效率。
dongyh
FANformer-1B是通过创新周期性机制增强语言建模能力的自回归模型,具有11亿非嵌入参数,训练token量达1万亿。
stockmark
Stockmark-2-100B是一个专注于日语能力的1000亿参数大语言模型,基于1.5万亿token的多语言数据预训练,并通过日语合成数据增强指令跟随能力。
cortexso
TinyLlama是一个11亿参数的小型大语言模型,在3万亿个标记上进行了预训练,并在ChatGPT生成的合成对话数据上进行了微调,旨在提供高效的对话能力。
tensoropera
Fox-1-1.6B是由TensorOpera AI开发的16亿参数小型语言模型,采用分组查询注意力机制,训练数据达3万亿文本和代码。
TRI-ML
Mamba-7B 是一个基于 Mamba 架构的 70 亿参数模型,在 RefinedWeb 数据集上进行了多轮训练(1.2 万亿标记)。Mamba 是一种状态空间模型,不使用自注意力机制,在多种自然语言基准测试中表现出色。
Intel
一个拥有13亿参数的多头注意力代码生成模型,基于1万亿token进行训练,支持16K窗口的代码补全任务
duoqi
Nanbeige-16B是由南贝格大模型实验室开发的160亿参数语言模型,采用2.5万亿token进行预训练,支持中文和英文。
croissantllm
CroissantLLM是一个基于3万亿英法双语token预训练的13亿参数语言模型,旨在为研究和工业社区提供高性能、完全开源的双语模型。
ahxt
LiteLlama是Meta AI的LLaMa 2精简版,仅含4.6亿参数并使用1万亿token训练的开源语言模型