苹果拟每年支付约10亿美元,与谷歌合作引入定制版Gemini AI模型升级Siri。此举标志苹果AI战略转变,将借助谷歌技术提升语音助手能力,直至自有AI技术成熟。谷歌模型参数达1.2万亿,远超苹果现有水平。
苹果与谷歌达成合作,每年支付约10亿美元获得Gemini大模型使用权,计划2026年春季随iOS26.4推出升级版Siri。此举旨在弥补苹果自研大模型不足,重夺智能语音主导权。新Siri将基于1.2万亿参数的Gemini2.5Pro,性能远超当前版本。
蚂蚁集团10月14日开源万亿参数模型Ring-1T,包含权重与训练方法。该模型基于预览版升级,通过强化学习优化推理能力,并完善通用性能,在多项任务中表现均衡。团队正挑战更高难度以提升数学等复杂推理能力。
蚂蚁集团开源万亿参数大模型Ling-1T,采用FP8低精度训练,为当前最大基座模型。该模型由"百灵"团队开发,属于Ling2.0家族,包含Ling、Ring、Ming三大系列。其中Ling系列专注通用任务,强调速度与效率优势。
万亿参数MoE文本大模型
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
Bytedance
$1.2
$3.6
4
almanach
Gaperon-Young-1125-1B 是一个拥有15亿参数的双语(法语-英语)语言模型,由法国国家信息与自动化研究所(Inria Paris)的ALMAnaCH团队开发。该模型在约3万亿个高质量令牌上训练,特别注重语言质量和通用文本生成能力,而非基准测试优化。
Gaperon-1125-24B是一个拥有240亿参数的双语(法语-英语)语言模型,经过约2万亿标记的训练,能够熟练处理法语、英语和编码任务。该模型采用OLMo-2架构,旨在实现大规模、高质量文本生成和出色任务性能之间的最佳平衡。
thenexthub
OpenModel-1T-A50B-Instruct是NeXTHub开发的万亿参数混合专家模型,结合进化思维链训练方法,在推理能力和能源效率上取得平衡,具备深度推理能力和128K长上下文处理能力。
inclusionAI
LLaDA-MoE是基于扩散原理构建的新型混合专家语言模型,是首个开源的MoE扩散大语言模型,在约20万亿个标记上从头预训练,总参数70亿,推理时仅激活14亿参数,在代码生成和数学推理等任务中表现卓越。
DevQuasar
Kimi K2 是一款先进的混合专家(MoE)语言模型,拥有 320 亿激活参数和 1 万亿总参数,针对代理能力进行了优化。
unsloth
Kimi K2是一款先进的混合专家(MoE)语言模型,具备320亿激活参数和1万亿总参数,针对智能代理能力进行了优化。
moonshotai
Kimi K2是一款先进的混合专家(MoE)语言模型,拥有320亿激活参数和1万亿总参数,针对智能体能力进行了优化。
Kimi K2 是一款先进的混合专家(MoE)语言模型,拥有 320 亿激活参数和 1 万亿总参数,针对智能体能力进行了优化。
Qwen3-4B-Base是Qwen系列最新一代基础版本大语言模型,具有40亿参数,支持119种语言,在36万亿标记的多语言数据上预训练,提供强大的自然语言处理能力。
Qwen
Qwen3-4B-Base是通义千问系列最新一代40亿参数大语言模型,基于36万亿token的多语言数据预训练,支持32k上下文长度。
microsoft
微软研究院开发的首个开源、原生1比特的大语言模型,参数规模达20亿,在4万亿token的语料库上训练而成。
微软研究院开发的首个开源20亿参数规模原生1比特大语言模型,在4万亿token语料上训练完成,证明了原生1比特大语言模型在保持与同规模全精度开源模型相当性能的同时,能显著提升计算效率。
由微软研究院开发的开源原生1位大语言模型,参数规模达20亿,在4万亿token的语料库上训练而成,显著提升计算效率。
dongyh
FANformer-1B是通过创新周期性机制增强语言建模能力的自回归模型,具有11亿非嵌入参数,训练token量达1万亿。
stockmark
Stockmark-2-100B是一个专注于日语能力的1000亿参数大语言模型,基于1.5万亿token的多语言数据预训练,并通过日语合成数据增强指令跟随能力。
openGPT-X
Teuken 7B-base-v0.6是一个拥有70亿参数的多语言大语言模型,在OpenGPT-X研究项目中基于6万亿个标记进行了预训练。该模型专为欧盟24种官方语言的私有、非商业、研究和教育用途设计,能在多语言环境中提供稳定的性能。
OpenLLM-France
Lucie-7B是由LINAGORA和OpenLLM-France联合构建的70亿参数多语言因果语言模型,基于Llama-3架构,在3万亿令牌的多语言数据上预训练而成。
cortexso
TinyLlama是一个11亿参数的小型大语言模型,在3万亿个标记上进行了预训练,并在ChatGPT生成的合成对话数据上进行了微调,旨在提供高效的对话能力。
tensoropera
Fox-1-1.6B是由TensorOpera AI开发的16亿参数小型语言模型,采用分组查询注意力机制,训练数据达3万亿文本和代码。
CofeAI
Tele-FLM是一个拥有520亿参数的开源多语言大语言模型,基于仅解码器的Transformer架构构建,在约2万亿个标记上进行训练。具备稳定高效的预训练范式和强大的事实判断能力,在同等规模下表现卓越,有时甚至超越更大的模型。