Lightricks公司推出AI视频生成模型LTX-2,能一次性生成20秒4K高清叙事视频,实现音画同步和口型匹配。该模型突破传统无声视频限制,在同一扩散过程中同步生成画面与声音,显著提升视频创作效率。
清华大学与快手可灵团队合作推出SVG模型,替代VAE,解决了语义纠缠问题,训练效率提升6200%,生成速度提高3500%,标志着VAE在图像生成领域逐步淘汰。
蚂蚁集团开源dInfer框架,专用于扩散大语言模型高效推理。该框架将推理速度提升10倍,在保持同等模型性能下超越传统自回归模型。自回归模型逐字生成文本速度受限,扩散模型通过去噪过程实现更高效推理,推动自然语言处理技术发展。
蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer,显著提升推理速度。基准测试显示,其比英伟达Fast-dLLM快10.7倍,在HumanEval代码生成任务中单次推理达每秒1011个Tokens,推动技术迈向实际应用。
全球首个人工智能直播流扩散模型。
通过音频扩散模型实现源分离和合成的创新方法。
F Lite 是一款 10B 参数的扩散模型,专注于合法和安全内容。
首个融合区块扩散和专家混合技术的高效推理语言模型
nvidia
BR-RM是一种创新的两轮推理奖励模型,通过自适应分支和基于分支的反思机制,解决了传统奖励模型中的'判断扩散'问题,在多个奖励建模基准测试中取得了业界领先的性能。
ashllay
基于Stable Diffusion XL,采用Inversion-DPO方法微调UNet权重,结合直接偏好优化(DPO)技术和反演方法,提升图像生成质量和对齐度的扩散模型
MadhavRupala
Stable Diffusion v1-5是基于潜在扩散技术的文本到图像生成模型,能够根据文本描述生成逼真的图像。该模型在LAION-2B数据集上训练,支持英语文本输入,生成512x512分辨率的图像。
radicalnumerics
RND1是一个实验性的扩散语言模型,拥有300亿参数,采用稀疏专家混合架构。该模型从预训练的自回归基础模型转换而来,支持基于扩散的文本生成,每个标记仅激活30亿参数,在计算效率和模型容量之间取得平衡。
likewendy
Pandora是一个用于生成逼真、高质量手机拍摄风格图像的扩散模型,采用两阶段训练过程,能够生成具有惊喜效果的手机拍摄风格图像。
Salesforce
CoDA是Salesforce AI Research研发的基于扩散模型的代码生成语言模型,具备双向上下文理解能力,专为强大的代码生成和补全任务而设计。该模型仅17亿参数,在保持低计算要求的同时实现了卓越的代码生成性能。
inclusionAI
LLaDA-MoE是基于扩散原理构建的新型混合专家语言模型,是首个开源的MoE扩散大语言模型,在约20万亿个标记上从头预训练,总参数70亿,推理时仅激活14亿参数,在代码生成和数学推理等任务中表现卓越。
tencent
SRPO是一种针对扩散模型的人类偏好对齐方法,通过Direct-Align技术和语义相对偏好优化,显著提升了FLUX.1-dev模型的真实感和美学质量,解决了多步去噪计算成本高和依赖离线奖励微调的问题。
sagata007
RUSKANIME2025是基于LoRA和Diffusers技术的文本到图像生成模型,专门用于通过特定触发词生成相关动漫风格图像。该模型基于black-forest-labs/FLUX.1-dev基础模型构建,采用扩散LoRA模板技术。
John6666
这是一个基于稳定扩散XL架构的文本到图像生成模型,专门用于生成具有高度真实感和丰富色彩的照片级图像。该模型在OnomaAIResearch/Illustrious-xl-early-release-v0基础上构建,专注于提升皮肤质感和色彩表现。
frankjoshua
这是一个基于Qwen-Image的扩散模型,融合了8步Lighting LoRA技术,能够实现快速高质量的图像生成。该模型通过GGUF量化格式提供,支持在资源受限的环境下运行。
Immac
NetaYume Lumina Image 2.0 是一个文本到图像的扩散模型,经过GGUF格式量化处理,能够将文本描述转换为图像。该模型经过优化,在保持生成质量的同时减少了内存使用和提升了性能。
tristan-deep
这是一个基于分数生成扩散模型的医学图像处理模型,专门针对心脏超声图像进行去雾处理。该模型在DehazeEcho2025数据集上训练,能够有效去除超声图像中的雾状干扰,提升图像清晰度。
duyntnet
Chroma 是一个高质量的文本到图像生成模型,专注于生成逼真的图像内容。该模型采用先进的扩散技术,能够根据文本描述生成高质量的视觉内容,特别适合本地部署环境下的图像创作需求。
manycore-research
SpatialGen是一个利用多视图、多模态扩散模型,从语义布局中生成多视图、多模态信息的项目。它能实现图像到场景以及文本到场景的转换,为相关领域的研究和应用提供了有力支持。
JetLM
SDAR是一种新型大语言模型,集成了自回归和离散扩散建模策略,结合了AR模型高效训练和扩散模型并行推理的优势。在通用任务上与SOTA开源AR模型相当,在科学推理任务上表现出色,成为最强大的扩散语言模型。
nbirukov
基于扩散策略的视觉运动控制模型,将机器人控制视为生成扩散过程,能够生成平滑的多步动作轨迹,在富接触操作任务中表现出色。
fredzzp
Open-DCoder 0.5B 是一个基于Qwen2架构的代码生成掩码扩散模型,参数量为5亿。该模型采用双向注意力机制和创新的扩散生成方法,专门用于代码生成任务。
Cosmos-Predict2.5是NVIDIA开发的专为物理AI设计的高性能预训练世界基础模型套件,基于扩散模型技术,能够根据文本、图像或视频输入生成具有物理感知的高质量图像和视频,为自动驾驶、机器人等应用提供世界模拟能力。
tera0711
embeddings 项目是一个基于 LoRA 和 Diffusers 技术的文本到图像转换模型,使用 stabilityai/stable-diffusion-3.5-large 作为基础模型,提供了扩散 LoRA 模板,能够基于特定模型生成高质量的图像。
ComfyUI_StoryDiffusion是一个基于ComfyUI的插件,支持StoryDiffusion和MS-Diffusion模型,用于生成连贯的长序列图像和视频。项目支持多种功能,包括双角色同框、ControlNet控制、Lora加速、文本到图像和图像到图像转换等。