vLLM团队推出首个“全模态”推理框架vLLM-Omni,将文本、图像、音频、视频的统一生成从概念验证变为可落地的代码。该框架采用解耦流水线架构,包括模态编码器(如ViT、Whisper)、LLM核心(沿用vLLM自回归引擎)和模态生成器(如DiT、Stable Diffusion),支持多模态输入与输出。开发者可通过GitHub和ReadTheDocs获取,并立即pip安装使用。
阿里巴巴开源Z-Image图像生成模型,仅6B参数实现高效生成与编辑,视觉质量接近20B级别商业模型。该模型采用单流DiT架构,生成速度快、资源占用低,有望推动AI图像工具普及消费级应用。
腾讯元宝推出新功能,用户用一句话或一张图片即可生成高清视频。基于HunyuanVideo1.5开源模型,采用DiT架构,8.3亿参数,支持5-10秒视频生成,简化内容创作流程。
腾讯发布轻量级视频生成模型HunyuanVideo1.5,采用DiT架构,参数量8.3B,可生成5-10秒高清视频。该模型已在“元宝”平台上线,支持文字描述生成视频及图片结合文字生成功能,用户可体验多样化视频创作。
基于 DiT 的人类图像动画框架,实现精细控制与长效一致性。
探索多模态扩散变换器中的注意力控制,实现无需调优的多提示长视频生成
基于DiT的视频生成模型,实时生成高质量视频。
基于DIT模型自注意力能力的单概念迁移研究
Alibaba
-
输入tokens/百万
输出tokens/百万
上下文长度
Deepseek
$4
$12
128
Chatglm
$16
32
$2
$8
Minimax
Stepfun
Baidu
diffusers
FLUX.2-dev是基于NF4量化的DiT和文本编码器的图像生成与编辑模型,提供高质量的图像生成和编辑能力,适用于图像领域的开发应用。
valiantcat
Qwen-Image-Edit-MeiTu是基于Qwen-Image-Edit的改进版本,采用DiT架构微调,专注于提升复杂图像编辑中的视觉一致性、美学质量和结构对齐能力。
Lightricks
首个基于DiT架构的实时高质量视频生成模型,支持1216×704分辨率30FPS生成
首个基于DiT架构的实时高质量视频生成模型,能以30帧/秒生成1216×704分辨率视频
DiTy
该模型是基于google/gemma-2-9b-it针对函数调用任务进行微调的版本,训练数据完全由人工标注,使用了俄语版本的DiTy/function-calling数据集。
kaupane
基于Wikiart数据集训练的扩散变换器模型,用于生成艺术作品图像
基于Wikiart数据集训练的扩散变换器模型,用于生成艺术风格图像
基于DiT架构的实时高质量视频生成模型,支持文本转视频及图像转视频两种应用场景
首个基于DiT的视频生成模型,能够实时生成高质量视频,支持文本转视频及图像+文本转视频两种场景
ByteDance
InfiniteYou(InfU)是一个基于FLUX扩散变换器(DiT)的身份保持图像生成框架,能够在保持身份特征的同时实现灵活的图片重塑。
jobs-git
首个基于DiT架构的实时高质量视频生成模型,支持文本到视频和图像到视频生成
首个基于DiT的视频生成模型,能够实时生成高质量视频,支持文本转视频和图像+文本转视频两种场景。
conjuncts
该模型是一个基于transformers库的模型,具体功能和用途需要进一步信息确认。
THUDM
CogView3-Plus-3B是CogView3的DiT版本,支持512至2048像素的文本生成图像功能。
3DTopia
3DTopia-XL是一个基于扩散变换器(DiT)和PrimX表示的高质量3D资产生成模型,能够从文本或图像输入快速生成3D PBR资产。
cmarkea
基于microsoft/dit-base微调的文档图像布局检测模型,可识别11类文档元素
基于DeepPavlov/rubert-base-cased预训练模型并通过MS-MARCO俄语段落排序数据集微调的sentence-transformers模型,用于俄语信息检索任务。
基于DeepPavlov/rubert-base-cased预训练模型,使用MS-MARCO俄语段落排序数据集微调的sentence-transformers模型,用于俄语的非对称语义搜索。
jzju
基于DIT架构的文档图像分割模型,专门用于识别和分割文档中的不同元素类型。
DiTo97
基于SegFormer-B3架构微调的文档图像二值化模型,在DIBCO评估指标上表现优异