苹果推出视频生成模型STARFlow-V,采用“归一化流”技术而非主流扩散模型,专注于提升长视频稳定性。该模型在视觉质量和生成速度上可与扩散模型媲美,输出分辨率为640×480像素,帧率为每秒16帧。
苹果发布视频生成模型STARFlow-V,采用归一化流技术替代主流扩散模型,旨在提升长视频生成的稳定性和减少错误累积。该技术直接学习数据分布,简化生成过程,与Sora等竞争对手形成差异化竞争。
蚂蚁集团与人民大学联合研发原生MoE架构扩散语言模型LLaDA-MoE,基于20T数据完成训练,验证了工业级大规模训练的扩展性和稳定性。模型效果超越LLaDA1.0/1.5和Dream-7B,媲美自回归模型,推理速度提升数倍。该模型将于近期开源,推动全球AI社区在dLLM领域的技术发展。
研究人员推出Voost框架,通过单一扩散变换器实现虚拟试衣/试脱双向学习,无需额外标签。创新采用注意力温度缩放和自校正采样技术提升模型稳定性,在多项基准测试中表现优异,显著提升服装-身体对齐精度和生成质量。该技术为数字时尚领域带来突破,项目已开源。
无需额外训练的高质量图像修复插件,适用于所有稳定扩散模型。
异步去噪并行化扩散模型
将图片和文本转换为视频的稳定视频扩散在线工具
创建你的 ComfyUI 工作流程应用,并与他人分享
Alibaba
-
Input tokens/M
Output tokens/M
Context Length
Bytedance
Tencent
$1
$4
32
Google
Stepfun
Chatglm
John6666
这是一个基于稳定扩散XL架构的文本到图像生成模型,专门用于生成具有高度真实感和丰富色彩的照片级图像。该模型在OnomaAIResearch/Illustrious-xl-early-release-v0基础上构建,专注于提升皮肤质感和色彩表现。
KiraDepth 是一个基于稳定扩散XL的文本到图像生成模型,专注于生成具有深度、细节和阴影的2.25D/2.5D风格图像,特别适合动漫风格的创作。
Nalgotic Dreams 是一个基于稳定扩散XL的文本生成图像模型,专注于生成高质量的动漫风格图像,特别是明亮、精细的插画风格女孩形象。
一个专注于生成高度真实小马图像的稳定扩散模型,特别强调面部细节、皮肤纹理和光影效果。
基于稳定扩散XL的文本生成图像模型,专注于生成高度真实感和细节丰富的图像。
基于稳定扩散XL(Stable Diffusion XL)的文本到图像生成模型,专注于动漫风格图像生成,特别擅长生成女孩形象和脚部素材。
基于稳定扩散(Stable Diffusion)技术的文本生成图像模型,支持生成照片级真实感的图像,尤其擅长小马主题的图像生成。
Illustrious XL v2.0 是一个基于稳定扩散XL的文本生成图像模型,专注于生成高质量的动漫风格图像,特别是女孩角色。
基于稳定扩散XL的动漫风格文本生成图像模型,专注于生成可爱、杰出的动漫女孩形象。
基于稳定扩散XL的高质量真实感图像生成模型,能够根据文本描述生成细节丰富、照片级真实感的图像。
jinofcoolnes
这是一个由[@jinofcoolnes]微调的稳定扩散模型,专门用于生成企业孟菲斯风格的数字插画。
flax
基于JAX和Flax实现的稳定扩散模型,专注于文本到图像的生成任务。
TaiMingLu
基于稳定视频扩散模型(SVD)构建的视频生成流程,通过关键帧生成时间连贯的视频,用于探索给定场景。
CyberIllustrious 是一个基于稳定扩散技术的文本生成图像模型,能够生成高质量、照片级写实的图像。
ParahumanSkitter
一个基于稳定扩散XL的文本到图像生成模型,专注于生成高质量、半写实风格的女性形象,具有照片级真实感和丰富的细节表现。
Animagine XL 4.0 是一个基于稳定扩散XL的文本生成图像模型,专注于生成动漫、写实和半写实风格的图像。
这是一个基于稳定扩散XL的文本到图像生成模型,专注于生成动漫风格的可爱女孩和小马形象。
这是一个基于稳定扩散XL的文本生成图像模型,特别擅长生成吉卜力工作室风格的动漫图像。
基于稳定扩散XL的真实感图像生成模型,特别擅长亚洲风格和日式风格的图像生成。
Illustrious XL 是一个基于稳定扩散XL的文本生成图像模型,专注于生成照片级真实感的图像,特别擅长表现女性形象和女同性恋主题。
这是一个集成Stability AI图像生成与编辑功能的MCP服务器项目,通过API实现高质量图像生成、背景移除、扩展绘画、对象替换、图像放大等功能,支持与Claude等MCP客户端无缝对接。