智谱联合华为开源图像生成模型GLM-Image,这是首个在国产芯片上完成全流程训练的SOTA多模态模型。其创新采用“自回归+扩散解码器”混合架构,实现了图像生成与语言模型的深度融合,在知识密集型任务中表现出色,能精准理解全局指令。
字节跳动与南洋理工大学联合推出开源框架StoryMem,通过创新的“视觉记忆”机制,将单镜头视频扩散模型升级为多镜头长视频生成工具,能自动生成超过1分钟、镜头切换自然、角色场景连贯的叙事视频,推动开源AI视频技术向电影级叙事迈进。
清华大学TSAIL实验室与生数科技联合开源视频生成加速框架TurboDiffusion,将AI视频扩散模型的推理速度提升100至200倍,视觉质量几乎无损。该技术针对现有开源模型进行深度优化,在单张RTX 5090显卡上实现从分钟级到秒级的实时生成,标志着AI视频创作进入新时代。
蚂蚁技术研究院发布LLaDA2.0系列,包含16B和100B版本,其中100B版为业内首个百亿参数离散扩散大语言模型。该模型突破扩散模型规模化瓶颈,显著提升生成质量与推理速度,为领域发展提供新方向。
开源框架,加速大型视频扩散模型
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
inclusionAI
LLaDA-MoE是基于扩散原理构建的新型混合专家语言模型,是首个开源的MoE扩散大语言模型,在约20万亿个标记上从头预训练,总参数70亿,推理时仅激活14亿参数,在代码生成和数学推理等任务中表现卓越。
JetLM
SDAR是一种新型大语言模型,集成了自回归和离散扩散建模策略,结合了AR模型高效训练和扩散模型并行推理的优势。在通用任务上与SOTA开源AR模型相当,在科学推理任务上表现出色,成为最强大的扩散语言模型。
Dream-org
Dream-Coder-v0-Base-7B 是一款开源的、性能顶尖的代码生成扩散大语言模型,专注于代码生成任务。
Skywork
SkyReels V2是首个采用自回归扩散强制架构的开源视频生成模型,支持无限长度电影生成,在公开模型中实现了最先进的性能表现。
ostris
开源80亿参数文本生成图像扩散模型,内置通用控制和图像修复功能
SkyReels V2 是一个采用自回归扩散强制架构的开源视频生成模型,支持无限长度电影生成,在公开模型中实现了最先进的性能表现。
SkyReels V2是首个采用自回归扩散强制架构的开源视频生成模型,支持无限时长电影生成,在公开模型中实现最先进的性能表现。
codewithdark
DiffusionLLM是基于扩散模型的文本生成项目,使用wikitext-103-v1数据集训练,专注于高质量文本生成任务。该项目采用transformers库和PyTorch框架,通过BLEU指标评估性能,遵循MIT开源许可证。
retronic
一款开源的表情符号生成器,基于扩散模型和LoRA微调技术,能够根据文本描述生成高质量的表情符号。
zai-org
CogVideoX1.5-5B-I2V是一个开源的图像到视频生成模型,能够将静态图像转换为动态视频。该模型基于扩散模型架构,支持从单张图像生成高质量的视频内容,类似于商业产品清影。
kandinsky-community
Kandinsky 3.0是基于Kandinsky2-x模型系列开发的开源文生图扩散模型,融合了更多俄罗斯文化相关数据,提升了文本理解与视觉生成质量。
alibaba-pai
阿里巴巴PAI团队开源的中文潜在扩散模型,支持中文文本到图像生成
阿里巴巴开源的中文美食主题隐扩散模型,支持根据中文文本生成高质量美食图像