苹果与普渡大学合作推出DarkDiff技术,通过将生成式扩散模型融入相机图像处理流程,显著提升智能手机在极暗环境下的拍照效果。该技术直接处理原始图像数据,有效解决传统夜景模式降噪导致的细节模糊和虚假感问题,实现在黑暗中捕捉清晰细节。
蚂蚁技术研究院发布LLaDA2.0系列,包含16B和100B版本,其中100B版为业内首个百亿参数离散扩散大语言模型。该模型突破扩散模型规模化瓶颈,显著提升生成质量与推理速度,为领域发展提供新方向。
苹果推出视频生成模型STARFlow-V,采用“归一化流”技术而非主流扩散模型,专注于提升长视频稳定性。该模型在视觉质量和生成速度上可与扩散模型媲美,输出分辨率为640×480像素,帧率为每秒16帧。
苹果发布视频生成模型STARFlow-V,采用归一化流技术替代主流扩散模型,旨在提升长视频生成的稳定性和减少错误累积。该技术直接学习数据分布,简化生成过程,与Sora等竞争对手形成差异化竞争。
全球首个人工智能直播流扩散模型。
通过音频扩散模型实现源分离和合成的创新方法。
F Lite 是一款 10B 参数的扩散模型,专注于合法和安全内容。
首个融合区块扩散和专家混合技术的高效推理语言模型
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
city96
FLUX.2-dev是由black-forest-labs开发的图像生成和编辑模型,已转换为GGUF格式,专为图像生成任务优化,采用扩散模型架构,支持在ComfyUI框架中使用。
Gjm1234
Wan2.2是基础视频模型的重大升级版本,专注于将有效MoE架构、高效训练策略和多模态融合等创新技术融入视频扩散模型,为视频生成领域带来更强大、更高效的解决方案。
sd2-community
Stable Diffusion v2-1-base是基于文本生成图像的扩散模型,在v2-base基础上进行了220k额外步骤的微调优化。该模型能够根据文本提示生成和修改图像,支持多种分辨率输出,适用于艺术创作、教育研究等多个领域。
Stable Diffusion v2 是一个基于扩散模型的文本到图像生成模型,能够根据文本提示生成和修改图像。该模型在LAION-5B数据集子集上训练,结合了自编码器和扩散模型,在潜在空间中进行训练,支持多种分辨率和任务。
Stable Diffusion v2-1-unclip是基于Stable Diffusion 2.1微调的扩散模型,能够接受文本提示和CLIP图像嵌入,用于创建图像变体或与文本到图像的CLIP先验结合使用。
nvidia
BR-RM是一种创新的两轮推理奖励模型,通过自适应分支和基于分支的反思机制,解决了传统奖励模型中的'判断扩散'问题,在多个奖励建模基准测试中取得了业界领先的性能。
ashllay
基于Stable Diffusion XL,采用Inversion-DPO方法微调UNet权重,结合直接偏好优化(DPO)技术和反演方法,提升图像生成质量和对齐度的扩散模型
MadhavRupala
Stable Diffusion v1-5是基于潜在扩散技术的文本到图像生成模型,能够根据文本描述生成逼真的图像。该模型在LAION-2B数据集上训练,支持英语文本输入,生成512x512分辨率的图像。
radicalnumerics
RND1是一个实验性的扩散语言模型,拥有300亿参数,采用稀疏专家混合架构。该模型从预训练的自回归基础模型转换而来,支持基于扩散的文本生成,每个标记仅激活30亿参数,在计算效率和模型容量之间取得平衡。
likewendy
Pandora是一个用于生成逼真、高质量手机拍摄风格图像的扩散模型,采用两阶段训练过程,能够生成具有惊喜效果的手机拍摄风格图像。
Salesforce
CoDA是Salesforce AI Research研发的基于扩散模型的代码生成语言模型,具备双向上下文理解能力,专为强大的代码生成和补全任务而设计。该模型仅17亿参数,在保持低计算要求的同时实现了卓越的代码生成性能。
inclusionAI
LLaDA-MoE是基于扩散原理构建的新型混合专家语言模型,是首个开源的MoE扩散大语言模型,在约20万亿个标记上从头预训练,总参数70亿,推理时仅激活14亿参数,在代码生成和数学推理等任务中表现卓越。
tencent
SRPO是一种针对扩散模型的人类偏好对齐方法,通过Direct-Align技术和语义相对偏好优化,显著提升了FLUX.1-dev模型的真实感和美学质量,解决了多步去噪计算成本高和依赖离线奖励微调的问题。
sagata007
RUSKANIME2025是基于LoRA和Diffusers技术的文本到图像生成模型,专门用于通过特定触发词生成相关动漫风格图像。该模型基于black-forest-labs/FLUX.1-dev基础模型构建,采用扩散LoRA模板技术。
John6666
这是一个基于稳定扩散XL架构的文本到图像生成模型,专门用于生成具有高度真实感和丰富色彩的照片级图像。该模型在OnomaAIResearch/Illustrious-xl-early-release-v0基础上构建,专注于提升皮肤质感和色彩表现。
frankjoshua
这是一个基于Qwen-Image的扩散模型,融合了8步Lighting LoRA技术,能够实现快速高质量的图像生成。该模型通过GGUF量化格式提供,支持在资源受限的环境下运行。
Immac
NetaYume Lumina Image 2.0 是一个文本到图像的扩散模型,经过GGUF格式量化处理,能够将文本描述转换为图像。该模型经过优化,在保持生成质量的同时减少了内存使用和提升了性能。
tristan-deep
这是一个基于分数生成扩散模型的医学图像处理模型,专门针对心脏超声图像进行去雾处理。该模型在DehazeEcho2025数据集上训练,能够有效去除超声图像中的雾状干扰,提升图像清晰度。
duyntnet
Chroma 是一个高质量的文本到图像生成模型,专注于生成逼真的图像内容。该模型采用先进的扩散技术,能够根据文本描述生成高质量的视觉内容,特别适合本地部署环境下的图像创作需求。
manycore-research
SpatialGen是一个利用多视图、多模态扩散模型,从语义布局中生成多视图、多模态信息的项目。它能实现图像到场景以及文本到场景的转换,为相关领域的研究和应用提供了有力支持。
ComfyUI_StoryDiffusion是一个基于ComfyUI的插件,支持StoryDiffusion和MS-Diffusion模型,用于生成连贯的长序列图像和视频。项目支持多种功能,包括双角色同框、ControlNet控制、Lora加速、文本到图像和图像到图像转换等。