快手Kling AI 2.6版本发布,首次集成音频生成功能,支持中英双语对白、歌唱与音效,实现文本、视频、音频一键同步生成。技术采用扩散变换器与3D时空联合注意力架构,提升复杂指令遵守率15%,并增强跨镜头角色一致性。视频输出保持10秒1080P高清,生成成本降低30%。
苹果公司研发新型AI图像生成系统“STARFlow”,结合正则化流和自回归变换器技术,挑战当前主流扩散模型。该突破性成果已在研究论文中公布,并与多所学术机构合作完成。
阿里通义千问团队开源图像编辑模型Qwen-Image-Edit,基于20B参数多模态扩散变换器,在精准文本编辑、语义与外观编辑方面表现卓越,尤其在中文文本渲染上实现行业领先,支持中英文双语精准渲染。
研究人员推出Voost框架,通过单一扩散变换器实现虚拟试衣/试脱双向学习,无需额外标签。创新采用注意力温度缩放和自校正采样技术提升模型稳定性,在多项基准测试中表现优异,显著提升服装-身体对齐精度和生成质量。该技术为数字时尚领域带来突破,项目已开源。
基于扩散变换器的多角色肖像动画生成框架。
InstantCharacter 是一种基于扩散变换器的角色个性化框架。
在视频扩散变换器中合成任何内容的框架。
MakeAnything 是一个用于多领域程序化序列生成的扩散变换器模型。
Alibaba
-
Input tokens/M
Output tokens/M
Context Length
Google
Minimax
Chatglm
Owen777
UltraFlux是一款基于Flux的扩散变换器,专门用于原生4K文本到图像生成。它通过数据、架构和损失的协同设计,能够在各种不同纵横比下保持一致的图像质量。
RiverZ
ICEdit是一种创新的指令式图像编辑方法,通过大规模扩散变换器实现高效编辑,仅需0.5%的训练数据和1%的参数规模即可达到SOTA效果。
sanaka87
ICEdit是一种基于大规模扩散变换器的指令式图像编辑方法,仅需0.5%的训练数据和1%的参数即可实现最先进的编辑效果。
yyyyyxie
TextFlux是一个基于无OCR扩散变换器的高保真多语言场景文本合成模型,采用FLUX.1-Fill-dev作为基础模型,专注于场景文本合成任务。
kaupane
基于Wikiart数据集训练的扩散变换器模型,用于生成艺术作品图像
基于Wikiart数据集训练的扩散变换器模型,用于生成艺术风格图像
ByteDance
InfiniteYou(InfU)是一个基于FLUX扩散变换器(DiT)的身份保持图像生成框架,能够在保持身份特征的同时实现灵活的图片重塑。
Alpha-VLLM
Lumina-Image 2.0 是一个基于流的扩散变换器模型,拥有20亿参数,专注于文本到图像的生成任务。
Huage001
CLEAR 是一种基于扩散变换器的图像到图像生成模型,通过类卷积线性化技术加速预训练过程。
gpustack
Stable Diffusion 3.5大模型是一款多模态扩散变换器(MMDiT)文生图模型,在图像质量、文字排版、复杂提示词理解和资源效率方面均有显著提升。
StableDiffusion 3.5 中型模型的 GGUF 版本是基于文本生成图像的强大扩散模型,在图像质量、排版效果、复杂提示理解和资源效率方面有显著提升。该模型采用改进的多模态扩散变换器架构,支持多种文本编码器,适用于艺术创作、教育工具和生成模型研究等场景。
ckpt
采用改进型多模态扩散变换器(MMDiT-X)的文本生成图像模型,在图像质量、排版效果、复杂提示理解及资源效率方面均有显著提升
stabilityai
基于改进型多模态扩散变换器(MMDiT-X)的文生图模型,在图像质量、文字排版、复杂提示词理解和资源效率方面均有显著提升
adamo1139
基于多模态扩散变换器(MMDiT)的文本到图像模型,采用对抗扩散蒸馏(ADD)技术,优化了图像质量、排版和复杂提示理解,同时减少推理步骤。
基于多模态扩散变换器(MMDiT)的高级文生图模型,在图像质量、文字排版和提示词理解方面有显著提升
基于多模态扩散变换器(MMDiT)的文本生成图像模型,采用对抗扩散蒸馏(ADD)技术,提升图像质量、排版和复杂提示理解能力。
3DTopia
3DTopia-XL是一个基于扩散变换器(DiT)和PrimX表示的高质量3D资产生成模型,能够从文本或图像输入快速生成3D PBR资产。
Stability AI推出的多模态扩散变换器文生图模型,在图像质量、文字排版和复杂提示理解方面有显著提升
一款多模态扩散变换器(MMDiT)文本生成图像模型,在图像质量、文字排版、复杂提示理解及资源效率方面均有显著提升