京东开源大模型JoyAI-LLM-Flash,参数48亿,激活参数3亿,经20万亿文本预训练,具备前沿知识理解、推理和编程能力。采用FiberPO优化框架,结合纤维丛理论与强化学习,使用Muon优化器和稠密多Token预测技术,解决了模型规模扩展的不稳定问题。
阿里发布旗舰推理模型Qwen3-Max-Thinking,参数量超万亿,预训练数据达36T Tokens。该模型通过强化学习训练,在事实知识、数学推理等方面表现优异,已接入千问PC端和网页端,App即将支持。用户可一键切换体验更强推理能力。
中国电信人工智能研究院开源星辰语义大模型TeleChat3系列,包括千亿参数MoE模型和稠密架构模型。该系列完全基于国产万卡算力池训练,数据规模达15万亿tokens,实现全栈国产化,标志着我国超大规模AI模型自主可控取得关键突破。
全球海拔最高大语言模型“阳光清言”V1.0在西藏发布,参数量超千亿,训练语料达288亿Token,覆盖多领域,填补藏语AI空白。响应国家AI+行动,拉萨社区和贡嘎机场已接入AI客服与翻译服务。
TokenVerse 是一种基于预训练文本到图像扩散模型的多概念个性化方法。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
$0.7
$7
$35
Alibaba
$4
$16
$2
$20
-
$6
$24
256
$8
$240
52
Bytedance
$0.8
Moonshot
$0.15
$1.5
Baidu
32
$10.5
Tencent
$1
$0.75
Ali-Yaser
本模型是基于meta-llama/Llama-3.3-70B-Instruct进行微调得到的版本,使用mlabonne/FineTome-100k数据集进行训练,包含100k token数据。模型采用Unsloth和Huggingface TRL库进行微调,支持英文语言处理。
gabriellarson
Seed-OSS是由字节跳动Seed团队开发的开源大语言模型系列,具备强大的长上下文处理、推理和智能体交互能力。仅使用12T token训练,在多个公开基准测试中表现出色,支持高达512K的原生长上下文处理。
ByteDance-Seed
Seed-OSS是由字节跳动Seed团队开发的开源大语言模型系列,具备强大的长上下文处理、推理、智能体交互能力和通用性能。该模型仅使用12T token训练,在多个公开基准测试中表现出色。
nvidia
Llama-3.3-Nemotron-Super-49B-v1.5是基于Meta Llama-3.3-70B-Instruct的大语言模型,经过多阶段后训练增强了推理和非推理能力。支持128K token上下文长度,在准确性和效率之间取得了良好平衡,适用于推理、聊天和代理任务。
internlm
Intern-S1是目前最先进的开源多模态推理模型,结合了强大的通用任务处理能力和在广泛科学任务中的卓越性能,可与领先的闭源商业模型相媲美。该模型在5T token数据集上进行持续预训练,其中超过50%是专业科学数据,具备动态分词器能够原生理解分子式、蛋白质序列和地震信号。
FlameF0X
SnowflakeCore-G1-Tiny2是基于GPT风格的自定义Transformer语言模型,是SnowflakeCore-G1-Tiny的改进版本。该模型使用PyTorch从头构建,在common-pile/wikimedia_filtered数据集上训练,拥有约4亿参数,支持2048 token上下文窗口,专为文本生成任务设计。
SynthLabsAI
ALP_DeepScaleR_1.5B_C16K是基于DeepScaleR-1.5B模型,采用自适应长度惩罚(ALP)方法进行训练的模型,能在保持性能的同时显著减少token使用量。
Mungert
OpenCodeReasoning-Nemotron-14B 是基于 Qwen2.5-14B-Instruct 进行后训练的大型语言模型,专为代码生成推理优化,支持32K tokens上下文长度。
OpenCodeReasoning-Nemotron-7B是基于Qwen2.5-7B-Instruct专门为代码生成推理而训练的大语言模型,支持32K token上下文长度,适用于商业和非商业用途。该模型在OpenCodeReasoning数据集上进行后续训练,专注于编程问题的推理和代码生成。
lmstudio-community
INTELLECT 2是由PrimeIntellect推出的大语言模型,支持40960 tokens的上下文长度,采用QwQ架构和GRPO强化学习框架训练。
OpenCodeReasoning-Nemotron-32B-IOI 是一个基于 Qwen2.5-32B-Instruct 的大型语言模型,专门针对代码生成任务进行了推理后训练,支持 32K token 的上下文长度。
Qwen
Qwen3-4B-Base是通义千问系列最新一代40亿参数大语言模型,基于36万亿token的多语言数据预训练,支持32k上下文长度。
Qwen3是通义千问系列最新一代大语言模型,提供完整的稠密模型与混合专家(MoE)模型体系,覆盖119种语言的36万亿token预训练数据。
rhysjones
该模型源自karpathy的llm.c项目,为研究bfloat16性能而转换为HuggingFace格式,训练过程消耗了1500亿token。
microsoft
微软研究院开发的首个开源、原生1比特的大语言模型,参数规模达20亿,在4万亿token的语料库上训练而成。
微软研究院开发的首个开源20亿参数规模原生1比特大语言模型,在4万亿token语料上训练完成,证明了原生1比特大语言模型在保持与同规模全精度开源模型相当性能的同时,能显著提升计算效率。
由微软研究院开发的开源原生1位大语言模型,参数规模达20亿,在4万亿token的语料库上训练而成,显著提升计算效率。
OpenCodeReasoning-Nemotron-32B 是一个基于 Qwen2.5-32B-Instruct 的大型语言模型,专门针对代码生成推理能力进行训练,支持 32K token 的上下文长度,可自由用于商业/非商业用途。
基于DeepSeek-V3架构的90亿参数大语言模型,使用完全开源且仅含英文的3500亿+token数据集从头训练而成,专为开源社区开发和调试设计。
dongyh
FANformer-1B是通过创新周期性机制增强语言建模能力的自回归模型,具有11亿非嵌入参数,训练token量达1万亿。