智源研究院发布Emu3.5多模态世界模型,首次引入自回归式“下一状态预测”技术,推动AI从感知理解迈向智能操作。该模型能在复杂环境中规划执行跨模态任务,实现多模态AI质的飞跃。
蚂蚁集团开源dInfer框架,专用于扩散大语言模型高效推理。该框架将推理速度提升10倍,在保持同等模型性能下超越传统自回归模型。自回归模型逐字生成文本速度受限,扩散模型通过去噪过程实现更高效推理,推动自然语言处理技术发展。
苹果与俄亥俄州立大学联合推出FS-DFM模型,仅需8轮迭代即可生成媲美传统模型上千轮迭代的长文本,写入速度提升高达128倍,突破长文本生成效率瓶颈。该模型采用离散流匹配技术,区别于ChatGPT等逐字生成的自回归模型。
10月13日,蚂蚁集团开源业界首个高性能扩散语言模型推理框架dInfer。基准测试显示,其推理速度较英伟达Fast-dLLM提升10.7倍;在HumanEval代码生成任务中,单批次推理速度达1011Tokens/秒,首次在开源社区实现扩散模型单批次推理速度超越自回归模型,证明扩散语言模型具有显著效率潜力。
新一代自回归图像生成模型,提供多模态输入和高级图像编辑功能。
高性能的英文学术基准语言模型
高效率自回归视频生成模型
大规模视频生成的自回归扩散模型
nvidia
NVIDIA-Nemotron-Nano-VL-12B-V2-FP4-QAD 是 NVIDIA 推出的自回归视觉语言模型,基于优化的 Transformer 架构,能够同时处理图像和文本输入。该模型采用 FP4 量化技术,在保持性能的同时显著减少模型大小和推理成本,适用于多种多模态应用场景。
radicalnumerics
RND1是一个实验性的扩散语言模型,拥有300亿参数,采用稀疏专家混合架构。该模型从预训练的自回归基础模型转换而来,支持基于扩散的文本生成,每个标记仅激活30亿参数,在计算效率和模型容量之间取得平衡。
inclusionAI
Ming-UniVision是一个多模态大语言模型,首次将连续视觉表征集成到下一令牌预测框架中,在单一自回归范式下统一了视觉和语言,无需离散量化或特定模态的头部。该模型支持联合图像理解与生成,在视觉语言训练中收敛速度更快,还支持多轮上下文视觉任务。
JetLM
SDAR是一种新型大语言模型,集成了自回归和离散扩散建模策略,结合了AR模型高效训练和扩散模型并行推理的优势。在通用任务上与SOTA开源AR模型相当,在科学推理任务上表现出色,成为最强大的扩散语言模型。
NVIDIA Qwen3-235B-A22B FP4模型是阿里云Qwen3-235B-A22B模型的量化版本,采用优化的Transformer架构,是一种自回归语言模型。该模型通过FP4量化技术将参数从16位减少到4位,使磁盘大小和GPU内存需求减少约3.3倍,同时保持较高的准确性和性能。
vladinc
这是一个基于DistilBERT架构的回归模型,能够根据英文自由文本预测大五人格特质(开放性、责任心、外向性、宜人性和神经质),输出为0.0到1.0之间的连续值。
CypressYang
SongBloom是一个创新的全长歌曲生成框架,采用自回归草图绘制和基于扩散的细化交错范式,结合了扩散模型的高保真度和语言模型的可扩展性,能够生成高质量的全长歌曲。
showlab
Show-o2 是一个改进的原生统一多模态模型,利用自回归建模和流匹配技术,支持文本、图像和视频模态的统一理解和生成。
DeepSeek AI 公司的 DeepSeek R1 0528 模型的量化版本,基于优化的 Transformer 架构的自回归语言模型,可用于商业和非商业用途。
Franklin0
ReasonGen-R1是一个融合思维链推理的自回归图像生成模型,通过SFT和RL提升图像生成的逻辑性和质量。
rp-yu
Dimple是首个结合自回归与扩散训练范式的离散扩散多模态大语言模型(DMLLM),在LLaVA-NEXT相同数据集上训练后,以3.9%的优势超越LLaVA-NEXT-7B。
Multiverse4FM
Autoregressive-32B是基于自回归建模构建的Multiverse-32B基线模型,为文本生成任务提供了强大的支持。
Multiverse-32B是基于Multiverse构建的首个开源、非自回归模型,在AIME测试中表现优异,具有重要的学术和应用价值。
TuKoResearch
AuriStream-1B是一个受生物启发的GPT风格自回归Transformer模型,专门用于在长语音上下文中预测耳蜗标记。该模型使用约20秒(4096个标记)的长上下文窗口,在LibriLight数据集(约60000小时)上训练了约500000步,能够学习丰富的时间对齐表示并生成语音续写。
bene-ges
基于BERT架构的非自回归俄语字形到音素(G2P)转换模型,用于预测国际音标(IPA)格式的音素。
facebook
XGLM-564M 是一个多语言自回归语言模型,包含5.64亿参数,基于30种语言的平衡语料库训练,总计5000亿子词。
Skywork
SkyReels V2是首个采用自回归扩散强制架构的开源视频生成模型,支持无限长度电影生成,在公开模型中实现了最先进的性能表现。
SkyReels V2是一个无限长度电影生成模型,采用自回归扩散强制架构,支持高质量视频生成。
SkyReels V2是一款无限长度电影生成模型,采用自回归扩散强制架构,支持高分辨率视频生成。
SkyReels V2是一个无限长度电影生成模型,采用自回归扩散强制架构,支持文生视频和图生视频任务,能够生成高质量的长视频内容。
该项目展示了使用Claude和模型上下文协议(MCP)进行端到端机器学习工作流的线性回归模型训练。用户只需上传CSV数据集,系统即可自动完成数据预处理、模型训练和评估(RMSE计算)全流程。