AI初创公司阶跃星辰计划在香港IPO,拟募资约5亿美元,最快今年上市。其核心团队背景深厚,具备“万亿参数”大模型技术实力,有望成为国内首批上市的大模型企业之一。
国产AI模型DeepSeek V4预览版已启动闭门内测,代号“海狮轻量版”。新模型相比V3实现跨代升级,原生支持多模态处理,并将上下文窗口大幅提升至100万token,可一次性处理超长文本。
Meta AI开源GCM工具包,旨在解决万亿参数AI模型训练中GPU集群的硬件不稳定问题。该工具为高性能计算领域提供了硬件管理方案,与传统Web开发中通过扩容解决延迟的方式不同。
2026年除夕,阿里巴巴开源新一代大模型千问Qwen3.5-Plus,性能媲美Gemini3Pro,成为全球最强开源大模型。该模型采用底层架构革新,参数3970亿但激活仅170亿,以更小规模超越万亿参数的Qwen3-Max,部署显存占用降低60%,长上下文推理吞吐量提升19倍。API成本低至每百万Token 0.8元,仅为Gemini3Pro的1/18。此外,它实现了从纯文本到原生多模态的跃迁。
万亿参数MoE文本大模型
Alibaba
$4
Input tokens/M
$16
Output tokens/M
1k
Context Length
$1
$10
256
$2
$20
-
$6
$24
Moonshot
Baidu
32
Xai
$1.4
$10.5
Tencent
Deepseek
$12
128
Openai
$0.4
$0.75
64
$0.63
$3.15
131
24
almanach
Gaperon-Young-1125-1B 是一个拥有15亿参数的双语(法语-英语)语言模型,由法国国家信息与自动化研究所(Inria Paris)的ALMAnaCH团队开发。该模型在约3万亿个高质量令牌上训练,特别注重语言质量和通用文本生成能力,而非基准测试优化。
Gaperon-1125-24B是一个拥有240亿参数的双语(法语-英语)语言模型,经过约2万亿标记的训练,能够熟练处理法语、英语和编码任务。该模型采用OLMo-2架构,旨在实现大规模、高质量文本生成和出色任务性能之间的最佳平衡。
thenexthub
OpenModel-1T-A50B-Instruct是NeXTHub开发的万亿参数混合专家模型,结合进化思维链训练方法,在推理能力和能源效率上取得平衡,具备深度推理能力和128K长上下文处理能力。
inclusionAI
LLaDA-MoE是基于扩散原理构建的新型混合专家语言模型,是首个开源的MoE扩散大语言模型,在约20万亿个标记上从头预训练,总参数70亿,推理时仅激活14亿参数,在代码生成和数学推理等任务中表现卓越。
DevQuasar
Kimi K2 是一款先进的混合专家(MoE)语言模型,拥有 320 亿激活参数和 1 万亿总参数,针对代理能力进行了优化。
unsloth
Kimi K2是一款先进的混合专家(MoE)语言模型,具备320亿激活参数和1万亿总参数,针对智能代理能力进行了优化。
moonshotai
Kimi K2是一款先进的混合专家(MoE)语言模型,拥有320亿激活参数和1万亿总参数,针对智能体能力进行了优化。
Kimi K2 是一款先进的混合专家(MoE)语言模型,拥有 320 亿激活参数和 1 万亿总参数,针对智能体能力进行了优化。
Qwen3-4B-Base是Qwen系列最新一代基础版本大语言模型,具有40亿参数,支持119种语言,在36万亿标记的多语言数据上预训练,提供强大的自然语言处理能力。
Qwen
Qwen3-4B-Base是通义千问系列最新一代40亿参数大语言模型,基于36万亿token的多语言数据预训练,支持32k上下文长度。
microsoft
微软研究院开发的首个开源、原生1比特的大语言模型,参数规模达20亿,在4万亿token的语料库上训练而成。
微软研究院开发的首个开源20亿参数规模原生1比特大语言模型,在4万亿token语料上训练完成,证明了原生1比特大语言模型在保持与同规模全精度开源模型相当性能的同时,能显著提升计算效率。
由微软研究院开发的开源原生1位大语言模型,参数规模达20亿,在4万亿token的语料库上训练而成,显著提升计算效率。
dongyh
FANformer-1B是通过创新周期性机制增强语言建模能力的自回归模型,具有11亿非嵌入参数,训练token量达1万亿。
stockmark
Stockmark-2-100B是一个专注于日语能力的1000亿参数大语言模型,基于1.5万亿token的多语言数据预训练,并通过日语合成数据增强指令跟随能力。
openGPT-X
Teuken 7B-base-v0.6是一个拥有70亿参数的多语言大语言模型,在OpenGPT-X研究项目中基于6万亿个标记进行了预训练。该模型专为欧盟24种官方语言的私有、非商业、研究和教育用途设计,能在多语言环境中提供稳定的性能。
OpenLLM-France
Lucie-7B是由LINAGORA和OpenLLM-France联合构建的70亿参数多语言因果语言模型,基于Llama-3架构,在3万亿令牌的多语言数据上预训练而成。
cortexso
TinyLlama是一个11亿参数的小型大语言模型,在3万亿个标记上进行了预训练,并在ChatGPT生成的合成对话数据上进行了微调,旨在提供高效的对话能力。
tensoropera
Fox-1-1.6B是由TensorOpera AI开发的16亿参数小型语言模型,采用分组查询注意力机制,训练数据达3万亿文本和代码。
CofeAI
Tele-FLM是一个拥有520亿参数的开源多语言大语言模型,基于仅解码器的Transformer架构构建,在约2万亿个标记上进行训练。具备稳定高效的预训练范式和强大的事实判断能力,在同等规模下表现卓越,有时甚至超越更大的模型。