vLLM团队推出首个“全模态”推理框架vLLM-Omni,将文本、图像、音频、视频的统一生成从概念验证变为可落地的代码。该框架采用解耦流水线架构,包括模态编码器(如ViT、Whisper)、LLM核心(沿用vLLM自回归引擎)和模态生成器(如DiT、Stable Diffusion),支持多模态输入与输出。开发者可通过GitHub和ReadTheDocs获取,并立即pip安装使用。
阿里巴巴开源Z-Image图像生成模型,仅6B参数实现高效生成与编辑,视觉质量接近20B级别商业模型。该模型采用单流DiT架构,生成速度快、资源占用低,有望推动AI图像工具普及消费级应用。
腾讯元宝推出新功能,用户用一句话或一张图片即可生成高清视频。基于HunyuanVideo1.5开源模型,采用DiT架构,8.3亿参数,支持5-10秒视频生成,简化内容创作流程。
腾讯发布轻量级视频生成模型HunyuanVideo1.5,采用DiT架构,参数量8.3B,可生成5-10秒高清视频。该模型已在“元宝”平台上线,支持文字描述生成视频及图片结合文字生成功能,用户可体验多样化视频创作。
Xai
$1.4
输入tokens/百万
$3.5
输出tokens/百万
2k
上下文长度
Alibaba
$4
$16
1k
$2
$20
-
Bytedance
$1.2
$3.6
4
256
Moonshot
$0.8
128
$10.5
Tencent
$1
32
Deepseek
$12
Openai
$0.4
$0.75
$8.75
$70
400
64
$0.63
$3.15
131
24
Chatglm
$8
valiantcat
Qwen-Image-Edit-MeiTu是基于Qwen-Image-Edit的改进版本,采用DiT架构微调,专注于提升复杂图像编辑中的视觉一致性、美学质量和结构对齐能力。
Lightricks
首个基于DiT架构的实时高质量视频生成模型,支持1216×704分辨率30FPS生成
首个基于DiT架构的实时高质量视频生成模型,能以30帧/秒生成1216×704分辨率视频
基于DiT架构的实时高质量视频生成模型,支持文本转视频及图像转视频两种应用场景
jobs-git
首个基于DiT架构的实时高质量视频生成模型,支持文本到视频和图像到视频生成
jzju
基于DIT架构的文档图像分割模型,专门用于识别和分割文档中的不同元素类型。