蚂蚁集团10月14日开源万亿参数模型Ring-1T,包含权重与训练方法。该模型基于预览版升级,通过强化学习优化推理能力,并完善通用性能,在多项任务中表现均衡。团队正挑战更高难度以提升数学等复杂推理能力。
蚂蚁集团开源万亿参数大模型Ling-1T,采用FP8低精度训练,为当前最大基座模型。该模型由"百灵"团队开发,属于Ling2.0家族,包含Ling、Ring、Ming三大系列。其中Ling系列专注通用任务,强调速度与效率优势。
【AI日报】报道Veo 3.1视频生成模型升级,新增角色一致性与多场景故事生成功能,提升视频时长和输出质量,助力内容创作者制作更连贯、高质量的视频作品。
蚂蚁集团发布首款万亿参数开源模型Ling-1T,在推理、代码生成、数学计算等领域表现卓越,树立国产AI新标杆。该模型以超强推理速度与能力实现技术突破,测试中超越多款知名开源模型。
万亿参数MoE文本大模型
deepseek
$1.94
Input tokens/M
$7.92
Output tokens/M
128k
Context Length
thenexthub
OpenModel-1T-A50B-Instruct是NeXTHub开发的万亿参数混合专家模型,结合进化思维链训练方法,在推理能力和能源效率上取得平衡,具备深度推理能力和128K长上下文处理能力。
inclusionAI
LLaDA-MoE是基于扩散原理构建的新型混合专家语言模型,是首个开源的MoE扩散大语言模型,在约20万亿个标记上从头预训练,总参数70亿,推理时仅激活14亿参数,在代码生成和数学推理等任务中表现卓越。
DevQuasar
Kimi K2 是一款先进的混合专家(MoE)语言模型,拥有 320 亿激活参数和 1 万亿总参数,针对代理能力进行了优化。
unsloth
Kimi K2是一款先进的混合专家(MoE)语言模型,具备320亿激活参数和1万亿总参数,针对智能代理能力进行了优化。
moonshotai
Kimi K2是一款先进的混合专家(MoE)语言模型,拥有320亿激活参数和1万亿总参数,针对智能体能力进行了优化。
Kimi K2 是一款先进的混合专家(MoE)语言模型,拥有 320 亿激活参数和 1 万亿总参数,针对智能体能力进行了优化。
Qwen3-4B-Base是Qwen系列最新一代基础版本大语言模型,具有40亿参数,支持119种语言,在36万亿标记的多语言数据上预训练,提供强大的自然语言处理能力。
Qwen
Qwen3-4B-Base是通义千问系列最新一代40亿参数大语言模型,基于36万亿token的多语言数据预训练,支持32k上下文长度。
microsoft
微软研究院开发的首个开源、原生1比特的大语言模型,参数规模达20亿,在4万亿token的语料库上训练而成。
微软研究院开发的首个开源20亿参数规模原生1比特大语言模型,在4万亿token语料上训练完成,证明了原生1比特大语言模型在保持与同规模全精度开源模型相当性能的同时,能显著提升计算效率。
由微软研究院开发的开源原生1位大语言模型,参数规模达20亿,在4万亿token的语料库上训练而成,显著提升计算效率。
dongyh
FANformer-1B是通过创新周期性机制增强语言建模能力的自回归模型,具有11亿非嵌入参数,训练token量达1万亿。
stockmark
Stockmark-2-100B是一个专注于日语能力的1000亿参数大语言模型,基于1.5万亿token的多语言数据预训练,并通过日语合成数据增强指令跟随能力。
openGPT-X
Teuken 7B-base-v0.6是一个拥有70亿参数的多语言大语言模型,在OpenGPT-X研究项目中基于6万亿个标记进行了预训练。该模型专为欧盟24种官方语言的私有、非商业、研究和教育用途设计,能在多语言环境中提供稳定的性能。
OpenLLM-France
Lucie-7B是由LINAGORA和OpenLLM-France联合构建的70亿参数多语言因果语言模型,基于Llama-3架构,在3万亿令牌的多语言数据上预训练而成。
cortexso
TinyLlama是一个11亿参数的小型大语言模型,在3万亿个标记上进行了预训练,并在ChatGPT生成的合成对话数据上进行了微调,旨在提供高效的对话能力。
tensoropera
Fox-1-1.6B是由TensorOpera AI开发的16亿参数小型语言模型,采用分组查询注意力机制,训练数据达3万亿文本和代码。
CofeAI
Tele-FLM是一个拥有520亿参数的开源多语言大语言模型,基于仅解码器的Transformer架构构建,在约2万亿个标记上进行训练。具备稳定高效的预训练范式和强大的事实判断能力,在同等规模下表现卓越,有时甚至超越更大的模型。
TRI-ML
Mamba-7B 是一个基于 Mamba 架构的 70 亿参数模型,在 RefinedWeb 数据集上进行了多轮训练(1.2 万亿标记)。Mamba 是一种状态空间模型,不使用自注意力机制,在多种自然语言基准测试中表现出色。
Intel
一个拥有13亿参数的多头注意力代码生成模型,基于1万亿token进行训练,支持16K窗口的代码补全任务