騰訊混元團隊開源HY-Motion1.0模型,基於DiT架構與流匹配技術,通過文本描述即可生成高質量3D骨骼動畫,兼容主流3D工具,大幅降低動畫製作門檻。該模型採用全階段訓練策略,利用超3000小時動作數據優化生成效果。
MiniMax與華中科技大學聯合開源VTP技術,僅優化視覺分詞器,使圖像生成性能提升65.8%,無需修改主模型架構,突破行業依賴大模型的傳統思路。
vLLM團隊推出首個“全模態”推理框架vLLM-Omni,將文本、圖像、音頻、視頻的統一生成從概念驗證變爲可落地的代碼。該框架採用解耦流水線架構,包括模態編碼器(如ViT、Whisper)、LLM核心(沿用vLLM自迴歸引擎)和模態生成器(如DiT、Stable Diffusion),支持多模態輸入與輸出。開發者可通過GitHub和ReadTheDocs獲取,並立即pip安裝使用。
阿里巴巴開源Z-Image圖像生成模型,僅6B參數實現高效生成與編輯,視覺質量接近20B級別商業模型。該模型採用單流DiT架構,生成速度快、資源佔用低,有望推動AI圖像工具普及消費級應用。
ByteDance的Seedance 1.5 Pro,用DB - DiT生成帶音畫同步的電影級視頻
基於 DiT 的人類圖像動畫框架,實現精細控制與長效一致性。
探索多模態擴散變換器中的注意力控制,實現無需調優的多提示長視頻生成
基於DiT的視頻生成模型,即時生成高質量視頻。
Alibaba
-
輸入tokens/百萬
輸出tokens/百萬
上下文長度
Deepseek
$4
$12
128
Chatglm
$16
32
$2
$8
Minimax
Stepfun
Baidu
diffusers
FLUX.2-dev是基於NF4量化的DiT和文本編碼器的圖像生成與編輯模型,提供高質量的圖像生成和編輯能力,適用於圖像領域的開發應用。
valiantcat
Qwen-Image-Edit-MeiTu是基於Qwen-Image-Edit的改進版本,採用DiT架構微調,專注於提升複雜圖像編輯中的視覺一致性、美學質量和結構對齊能力。
Lightricks
首個基於DiT架構的即時高質量視頻生成模型,支持1216×704分辨率30FPS生成
首個基於DiT架構的即時高質量視頻生成模型,能以30幀/秒生成1216×704分辨率視頻
DiTy
該模型是基於google/gemma-2-9b-it針對函數調用任務進行微調的版本,訓練數據完全由人工標註,使用了俄語版本的DiTy/function-calling數據集。
kaupane
基於Wikiart數據集訓練的擴散變換器模型,用於生成藝術作品圖像
基於Wikiart數據集訓練的擴散變換器模型,用於生成藝術風格圖像
基於DiT架構的即時高質量視頻生成模型,支持文本轉視頻及圖像轉視頻兩種應用場景
首個基於DiT的視頻生成模型,能夠即時生成高質量視頻,支持文本轉視頻及圖像+文本轉視頻兩種場景
ByteDance
InfiniteYou(InfU)是一個基於FLUX擴散變換器(DiT)的身份保持圖像生成框架,能夠在保持身份特徵的同時實現靈活的圖片重塑。
jobs-git
首個基於DiT架構的即時高質量視頻生成模型,支持文本到視頻和圖像到視頻生成
首個基於DiT的視頻生成模型,能夠即時生成高質量視頻,支持文本轉視頻和圖像+文本轉視頻兩種場景。
conjuncts
該模型是一個基於transformers庫的模型,具體功能和用途需要進一步信息確認。
THUDM
CogView3-Plus-3B是CogView3的DiT版本,支持512至2048像素的文本生成圖像功能。
3DTopia
3DTopia-XL是一個基於擴散變換器(DiT)和PrimX表示的高質量3D資產生成模型,能夠從文本或圖像輸入快速生成3D PBR資產。
cmarkea
基於microsoft/dit-base微調的文檔圖像佈局檢測模型,可識別11類文檔元素
基於DeepPavlov/rubert-base-cased預訓練模型並通過MS-MARCO俄語段落排序數據集微調的sentence-transformers模型,用於俄語信息檢索任務。
基於DeepPavlov/rubert-base-cased預訓練模型,使用MS-MARCO俄語段落排序數據集微調的sentence-transformers模型,用於俄語的非對稱語義搜索。
jzju
基於DIT架構的文檔圖像分割模型,專門用於識別和分割文檔中的不同元素類型。
DiTo97
基於SegFormer-B3架構微調的文檔圖像二值化模型,在DIBCO評估指標上表現優異