vLLM團隊推出首個“全模態”推理框架vLLM-Omni,將文本、圖像、音頻、視頻的統一生成從概念驗證變爲可落地的代碼。該框架採用解耦流水線架構,包括模態編碼器(如ViT、Whisper)、LLM核心(沿用vLLM自迴歸引擎)和模態生成器(如DiT、Stable Diffusion),支持多模態輸入與輸出。開發者可通過GitHub和ReadTheDocs獲取,並立即pip安裝使用。
阿里巴巴開源Z-Image圖像生成模型,僅6B參數實現高效生成與編輯,視覺質量接近20B級別商業模型。該模型採用單流DiT架構,生成速度快、資源佔用低,有望推動AI圖像工具普及消費級應用。
騰訊元寶推出新功能,用戶用一句話或一張圖片即可生成高清視頻。基於HunyuanVideo1.5開源模型,採用DiT架構,8.3億參數,支持5-10秒視頻生成,簡化內容創作流程。
騰訊發佈輕量級視頻生成模型HunyuanVideo1.5,採用DiT架構,參數量8.3B,可生成5-10秒高清視頻。該模型已在“元寶”平臺上線,支持文字描述生成視頻及圖片結合文字生成功能,用戶可體驗多樣化視頻創作。
基於 DiT 的人類圖像動畫框架,實現精細控制與長效一致性。
探索多模態擴散變換器中的注意力控制,實現無需調優的多提示長視頻生成
基於DiT的視頻生成模型,即時生成高質量視頻。
基於DIT模型自注意力能力的單概念遷移研究
Alibaba
-
輸入tokens/百萬
輸出tokens/百萬
上下文長度
Deepseek
$4
$12
128
Chatglm
$16
32
$2
$8
Minimax
Stepfun
Baidu
diffusers
FLUX.2-dev是基於NF4量化的DiT和文本編碼器的圖像生成與編輯模型,提供高質量的圖像生成和編輯能力,適用於圖像領域的開發應用。
valiantcat
Qwen-Image-Edit-MeiTu是基於Qwen-Image-Edit的改進版本,採用DiT架構微調,專注於提升複雜圖像編輯中的視覺一致性、美學質量和結構對齊能力。
Lightricks
首個基於DiT架構的即時高質量視頻生成模型,支持1216×704分辨率30FPS生成
首個基於DiT架構的即時高質量視頻生成模型,能以30幀/秒生成1216×704分辨率視頻
DiTy
該模型是基於google/gemma-2-9b-it針對函數調用任務進行微調的版本,訓練數據完全由人工標註,使用了俄語版本的DiTy/function-calling數據集。
kaupane
基於Wikiart數據集訓練的擴散變換器模型,用於生成藝術作品圖像
基於Wikiart數據集訓練的擴散變換器模型,用於生成藝術風格圖像
基於DiT架構的即時高質量視頻生成模型,支持文本轉視頻及圖像轉視頻兩種應用場景
首個基於DiT的視頻生成模型,能夠即時生成高質量視頻,支持文本轉視頻及圖像+文本轉視頻兩種場景
ByteDance
InfiniteYou(InfU)是一個基於FLUX擴散變換器(DiT)的身份保持圖像生成框架,能夠在保持身份特徵的同時實現靈活的圖片重塑。
jobs-git
首個基於DiT架構的即時高質量視頻生成模型,支持文本到視頻和圖像到視頻生成
首個基於DiT的視頻生成模型,能夠即時生成高質量視頻,支持文本轉視頻和圖像+文本轉視頻兩種場景。
conjuncts
該模型是一個基於transformers庫的模型,具體功能和用途需要進一步信息確認。
THUDM
CogView3-Plus-3B是CogView3的DiT版本,支持512至2048像素的文本生成圖像功能。
3DTopia
3DTopia-XL是一個基於擴散變換器(DiT)和PrimX表示的高質量3D資產生成模型,能夠從文本或圖像輸入快速生成3D PBR資產。
cmarkea
基於microsoft/dit-base微調的文檔圖像佈局檢測模型,可識別11類文檔元素
基於DeepPavlov/rubert-base-cased預訓練模型並通過MS-MARCO俄語段落排序數據集微調的sentence-transformers模型,用於俄語信息檢索任務。
基於DeepPavlov/rubert-base-cased預訓練模型,使用MS-MARCO俄語段落排序數據集微調的sentence-transformers模型,用於俄語的非對稱語義搜索。
jzju
基於DIT架構的文檔圖像分割模型,專門用於識別和分割文檔中的不同元素類型。
DiTo97
基於SegFormer-B3架構微調的文檔圖像二值化模型,在DIBCO評估指標上表現優異