阿里通义千问推出Qwen3-Max模型,新增“深度思考”模式,通过强化推理链分析和多步骤问题拆解,显著提升复杂任务处理效率。该模型参数量超1万亿,预训练数据达36T tokens,是目前规模最大、能力最强的版本,在代码和智能体能力方面均有明显进步。
英伟达发布OmniVinci全模态理解模型,在多项基准测试中领先顶尖模型19.05分。该模型仅用0.2万亿训练Token,数据效率达竞争对手六倍,旨在实现视觉、音频和文本的统一理解,推动机器多模态认知能力发展。
腾讯发布Training-Free GRPO技术,通过外部知识库替代参数微调,在模型参数冻结状态下实现性能优化。该方法将经验知识转化为token级先验信息,显著降低训练成本,在DeepSeek-V3.1-Terminus模型上达到与昂贵微调相当的提升效果。
阿里云Qwen团队发布最新AI模型Qwen3-Max,参数超1万亿,预训练数据达36万亿tokens。该模型基于MoE架构,在LMArena文本榜排名第三,超越GPT-5-Chat,并在代码生成与智能体能力等基准测试中表现突出,标志着AI技术新突破。
TokenVerse 是一种基于预训练文本到图像扩散模型的多概念个性化方法。
deepseek
-
Input tokens/M
Output tokens/M
128k
Context Length
perplexity
127k
200k
Ali-Yaser
本模型是基于meta-llama/Llama-3.3-70B-Instruct进行微调得到的版本,使用mlabonne/FineTome-100k数据集进行训练,包含100k token数据。模型采用Unsloth和Huggingface TRL库进行微调,支持英文语言处理。
gabriellarson
Seed-OSS是由字节跳动Seed团队开发的开源大语言模型系列,具备强大的长上下文处理、推理和智能体交互能力。仅使用12T token训练,在多个公开基准测试中表现出色,支持高达512K的原生长上下文处理。
ByteDance-Seed
Seed-OSS是由字节跳动Seed团队开发的开源大语言模型系列,具备强大的长上下文处理、推理、智能体交互能力和通用性能。该模型仅使用12T token训练,在多个公开基准测试中表现出色。
nvidia
Llama-3.3-Nemotron-Super-49B-v1.5是基于Meta Llama-3.3-70B-Instruct的大语言模型,经过多阶段后训练增强了推理和非推理能力。支持128K token上下文长度,在准确性和效率之间取得了良好平衡,适用于推理、聊天和代理任务。
internlm
Intern-S1是目前最先进的开源多模态推理模型,结合了强大的通用任务处理能力和在广泛科学任务中的卓越性能,可与领先的闭源商业模型相媲美。该模型在5T token数据集上进行持续预训练,其中超过50%是专业科学数据,具备动态分词器能够原生理解分子式、蛋白质序列和地震信号。
FlameF0X
SnowflakeCore-G1-Tiny2是基于GPT风格的自定义Transformer语言模型,是SnowflakeCore-G1-Tiny的改进版本。该模型使用PyTorch从头构建,在common-pile/wikimedia_filtered数据集上训练,拥有约4亿参数,支持2048 token上下文窗口,专为文本生成任务设计。
SynthLabsAI
ALP_DeepScaleR_1.5B_C16K是基于DeepScaleR-1.5B模型,采用自适应长度惩罚(ALP)方法进行训练的模型,能在保持性能的同时显著减少token使用量。
Mungert
OpenCodeReasoning-Nemotron-14B 是基于 Qwen2.5-14B-Instruct 进行后训练的大型语言模型,专为代码生成推理优化,支持32K tokens上下文长度。
OpenCodeReasoning-Nemotron-7B是基于Qwen2.5-7B-Instruct专门为代码生成推理而训练的大语言模型,支持32K token上下文长度,适用于商业和非商业用途。该模型在OpenCodeReasoning数据集上进行后续训练,专注于编程问题的推理和代码生成。
lmstudio-community
INTELLECT 2是由PrimeIntellect推出的大语言模型,支持40960 tokens的上下文长度,采用QwQ架构和GRPO强化学习框架训练。
OpenCodeReasoning-Nemotron-32B-IOI 是一个基于 Qwen2.5-32B-Instruct 的大型语言模型,专门针对代码生成任务进行了推理后训练,支持 32K token 的上下文长度。
Qwen
Qwen3-4B-Base是通义千问系列最新一代40亿参数大语言模型,基于36万亿token的多语言数据预训练,支持32k上下文长度。
Qwen3是通义千问系列最新一代大语言模型,提供完整的稠密模型与混合专家(MoE)模型体系,覆盖119种语言的36万亿token预训练数据。
rhysjones
该模型源自karpathy的llm.c项目,为研究bfloat16性能而转换为HuggingFace格式,训练过程消耗了1500亿token。
microsoft
微软研究院开发的首个开源、原生1比特的大语言模型,参数规模达20亿,在4万亿token的语料库上训练而成。
微软研究院开发的首个开源20亿参数规模原生1比特大语言模型,在4万亿token语料上训练完成,证明了原生1比特大语言模型在保持与同规模全精度开源模型相当性能的同时,能显著提升计算效率。
由微软研究院开发的开源原生1位大语言模型,参数规模达20亿,在4万亿token的语料库上训练而成,显著提升计算效率。
OpenCodeReasoning-Nemotron-32B 是一个基于 Qwen2.5-32B-Instruct 的大型语言模型,专门针对代码生成推理能力进行训练,支持 32K token 的上下文长度,可自由用于商业/非商业用途。
基于DeepSeek-V3架构的90亿参数大语言模型,使用完全开源且仅含英文的3500亿+token数据集从头训练而成,专为开源社区开发和调试设计。
dongyh
FANformer-1B是通过创新周期性机制增强语言建模能力的自回归模型,具有11亿非嵌入参数,训练token量达1万亿。