腾讯混元团队开源HY-Motion1.0模型,基于DiT架构与流匹配技术,通过文本描述即可生成高质量3D骨骼动画,兼容主流3D工具,大幅降低动画制作门槛。该模型采用全阶段训练策略,利用超3000小时动作数据优化生成效果。
MiniMax与华中科技大学联合开源VTP技术,仅优化视觉分词器,使图像生成性能提升65.8%,无需修改主模型架构,突破行业依赖大模型的传统思路。
vLLM团队推出首个“全模态”推理框架vLLM-Omni,将文本、图像、音频、视频的统一生成从概念验证变为可落地的代码。该框架采用解耦流水线架构,包括模态编码器(如ViT、Whisper)、LLM核心(沿用vLLM自回归引擎)和模态生成器(如DiT、Stable Diffusion),支持多模态输入与输出。开发者可通过GitHub和ReadTheDocs获取,并立即pip安装使用。
阿里巴巴开源Z-Image图像生成模型,仅6B参数实现高效生成与编辑,视觉质量接近20B级别商业模型。该模型采用单流DiT架构,生成速度快、资源占用低,有望推动AI图像工具普及消费级应用。
ByteDance的Seedance 1.5 Pro,用DB - DiT生成带音画同步的电影级视频
基于 DiT 的人类图像动画框架,实现精细控制与长效一致性。
探索多模态扩散变换器中的注意力控制,实现无需调优的多提示长视频生成
基于DiT的视频生成模型,实时生成高质量视频。
Alibaba
-
输入tokens/百万
输出tokens/百万
上下文长度
Deepseek
$4
$12
128
Chatglm
$16
32
$2
$8
Minimax
Stepfun
Baidu
AlekseyCalvin
这是一个针对 Z-Image Turbo DiT 模型的低秩适配器(LoRA),专门用于生成具有历史照片风格的图像。该模型基于 1900-1910 年代摄影师 Sergey Prokudin-Gorsky 的 150 张彩色照片训练而成,能够为现代图像生成注入独特的早期彩色摄影美学,如暖色调光晕和特定色彩质感。
diffusers
FLUX.2-dev是基于NF4量化的DiT和文本编码器的图像生成与编辑模型,提供高质量的图像生成和编辑能力,适用于图像领域的开发应用。
valiantcat
Qwen-Image-Edit-MeiTu是基于Qwen-Image-Edit的改进版本,采用DiT架构微调,专注于提升复杂图像编辑中的视觉一致性、美学质量和结构对齐能力。
Lightricks
首个基于DiT架构的实时高质量视频生成模型,支持1216×704分辨率30FPS生成
首个基于DiT架构的实时高质量视频生成模型,能以30帧/秒生成1216×704分辨率视频
DiTy
该模型是基于google/gemma-2-9b-it针对函数调用任务进行微调的版本,训练数据完全由人工标注,使用了俄语版本的DiTy/function-calling数据集。
kaupane
基于Wikiart数据集训练的扩散变换器模型,用于生成艺术作品图像
基于Wikiart数据集训练的扩散变换器模型,用于生成艺术风格图像
基于DiT架构的实时高质量视频生成模型,支持文本转视频及图像转视频两种应用场景
首个基于DiT的视频生成模型,能够实时生成高质量视频,支持文本转视频及图像+文本转视频两种场景
ByteDance
InfiniteYou(InfU)是一个基于FLUX扩散变换器(DiT)的身份保持图像生成框架,能够在保持身份特征的同时实现灵活的图片重塑。
jobs-git
首个基于DiT架构的实时高质量视频生成模型,支持文本到视频和图像到视频生成
首个基于DiT的视频生成模型,能够实时生成高质量视频,支持文本转视频和图像+文本转视频两种场景。
conjuncts
该模型是一个基于transformers库的模型,具体功能和用途需要进一步信息确认。
THUDM
CogView3-Plus-3B是CogView3的DiT版本,支持512至2048像素的文本生成图像功能。
3DTopia
3DTopia-XL是一个基于扩散变换器(DiT)和PrimX表示的高质量3D资产生成模型,能够从文本或图像输入快速生成3D PBR资产。
cmarkea
基于microsoft/dit-base微调的文档图像布局检测模型,可识别11类文档元素
基于DeepPavlov/rubert-base-cased预训练模型并通过MS-MARCO俄语段落排序数据集微调的sentence-transformers模型,用于俄语信息检索任务。
基于DeepPavlov/rubert-base-cased预训练模型,使用MS-MARCO俄语段落排序数据集微调的sentence-transformers模型,用于俄语的非对称语义搜索。
jzju
基于DIT架构的文档图像分割模型,专门用于识别和分割文档中的不同元素类型。