最好的DiT架构 AI工具模型_精选DiT架构资讯

AI资讯

vLLM-Omni开源:把扩散模型、ViT、LLM塞进一条流水线，多模态推理一次跑完

vLLM团队推出首个“全模态”推理框架vLLM-Omni，将文本、图像、音频、视频的统一生成从概念验证变为可落地的代码。该框架采用解耦流水线架构，包括模态编码器（如ViT、Whisper）、LLM核心（沿用vLLM自回归引擎）和模态生成器（如DiT、Stable Diffusion），支持多模态输入与输出。开发者可通过GitHub和ReadTheDocs获取，并立即pip安装使用。

12.7k 昨天

阿里巴巴开源 Z-Image 图像模型：支持中英双语文字渲染

阿里巴巴开源Z-Image图像生成模型，仅6B参数实现高效生成与编辑，视觉质量接近20B级别商业模型。该模型采用单流DiT架构，生成速度快、资源占用低，有望推动AI图像工具普及消费级应用。

33.3k 3 小时前

腾讯元宝推出新功能：一句话或一张图即可生成视频！

腾讯元宝推出新功能，用户用一句话或一张图片即可生成高清视频。基于HunyuanVideo1.5开源模型，采用DiT架构，8.3亿参数，支持5-10秒视频生成，简化内容创作流程。

11.4k 昨天

腾讯发布全新视频生成模型 HunyuanVideo1.5，降低视频创作门槛

腾讯发布轻量级视频生成模型HunyuanVideo1.5，采用DiT架构，参数量8.3B，可生成5-10秒高清视频。该模型已在“元宝”平台上线，支持文字描述生成视频及图片结合文字生成功能，用户可体验多样化视频创作。

11.7k 2 天前

模型

Grok 4 Fast

Xai

$1.4

输入tokens/百万

$3.5

输出tokens/百万

上下文长度

qwen3-coder-plus

Alibaba

输入tokens/百万

$16

输出tokens/百万

上下文长度

qwen3-vl-235b-a22b-thinking

Alibaba

输入tokens/百万

$20

输出tokens/百万

上下文长度

qwen-image-edit

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

Doubao-Seed-Translation

Bytedance

$1.2

输入tokens/百万

$3.6

输出tokens/百万

上下文长度

Qwen3-Next-80B-A3B-Instruct

Alibaba

输入tokens/百万

输出tokens/百万

256

上下文长度

Kimi-K2

Moonshot

输入tokens/百万

$16

输出tokens/百万

256

上下文长度

Doubao-1.5-pro-32k

Bytedance

$0.8

输入tokens/百万

输出tokens/百万

128

上下文长度

Grok Code Fast 1

Xai

$1.4

输入tokens/百万

$10.5

输出tokens/百万

256

上下文长度

Hunyuan-T1-latest

Tencent

输入tokens/百万

输出tokens/百万

上下文长度

DeepSeek-V3.1

Deepseek

输入tokens/百万

$12

输出tokens/百万

128

上下文长度

gpt-oss-20b

Openai

$0.4

输入tokens/百万

输出tokens/百万

128

上下文长度

Qwen3-30B-A3B-Instruct-2507

Alibaba

$0.75

输入tokens/百万

输出tokens/百万

256

上下文长度

GPT-5

Openai

$8.75

输入tokens/百万

$70

输出tokens/百万

400

上下文长度

Qwen3-235B-A22B-Instruct-2507

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

GPT OSS 120B

Openai

$0.63

输入tokens/百万

$3.15

输出tokens/百万

131

上下文长度

qwen3-coder-flash

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

Hunyuan-Large-Vision

Tencent

输入tokens/百万

输出tokens/百万

上下文长度

GLM-4.5-Flash

Chatglm

输入tokens/百万

输出tokens/百万

128

上下文长度

GLM-4.5-X

Chatglm

输入tokens/百万

$16

输出tokens/百万

128

上下文长度

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

商务合作网站地图

AI资讯

vLLM-Omni开源:把扩散模型、ViT、LLM塞进一条流水线，多模态推理一次跑完

阿里巴巴开源 Z-Image 图像模型：支持中英双语文字渲染

腾讯元宝推出新功能：一句话或一张图即可生成视频！

腾讯发布全新视频生成模型 HunyuanVideo1.5，降低视频创作门槛

模型

Grok 4 Fast

qwen3-coder-plus

qwen3-vl-235b-a22b-thinking

qwen-image-edit

Doubao-Seed-Translation

Qwen3-Next-80B-A3B-Instruct

Kimi-K2

Doubao-1.5-pro-32k

Grok Code Fast 1

Hunyuan-T1-latest

DeepSeek-V3.1

gpt-oss-20b

Qwen3-30B-A3B-Instruct-2507

GPT-5

Qwen3-235B-A22B-Instruct-2507

GPT OSS 120B

qwen3-coder-flash

Hunyuan-Large-Vision

GLM-4.5-Flash

GLM-4.5-X

Qwen Image Edit MeiTu

LTX Video 0.9.7 Distilled

LTX Video 0.9.7 Dev

LTX Video 0.9.1

LTX Video

Dit Doclaynet