字節跳動開源Lance,一款僅3B激活參數的原生統一多模態大模型,打破“理解模型(VLM)”與“生成模型(DiT/Diffusion)”的技術壁壘。它以極致輕量化實現全功能覆蓋,挑戰當前AI行業堆砌參數或“拼積木”組裝模型的風氣,成爲技術創新的重要突破。
OPPO在聯發科天璣開發者大會上推出全球首個端側AIGC光影處理引擎,基於自研DiT架構,專爲解決戶外複雜光線問題(如逆光、強光、陰影交錯)而設計,可有效改善人物面部偏暗、背景過曝及細節丟失等拍攝痛點,爲攝影愛好者帶來福音。
字節跳動Seed團隊發佈新一代3D生成大模型Seed3D2.0,在幾何精度與材質真實度上實現突破,核心指標達行業領先水平,有效解決邊緣軟化、拓撲失真等痛點。模型採用“粗到精”兩階段DiT架構,通過解耦整體結構與細節,推動AI 3D內容生成邁向“生產級可用”。
2026年3月11日,謝賽寧團隊發佈全球首個多人視頻世界模型Solaris,實現從“單人單視角”到“多人交互世界”的跨越。其核心技術基於崑崙天工開源架構,引入多人自注意力層,顯著提升了建築一致性,驗證了多玩家在虛擬世界中的協同感知能力。
ByteDance的Seedance 1.5 Pro,用DB - DiT生成帶音畫同步的電影級視頻
基於 DiT 的人類圖像動畫框架,實現精細控制與長效一致性。
探索多模態擴散變換器中的注意力控制,實現無需調優的多提示長視頻生成
基於DiT的視頻生成模型,即時生成高質量視頻。
Alibaba
-
輸入tokens/百萬
輸出tokens/百萬
上下文長度
Deepseek
$4
$12
128
Chatglm
$16
32
$2
$8
Minimax
Stepfun
Baidu
diffusers
FLUX.2-dev是基於NF4量化的DiT和文本編碼器的圖像生成與編輯模型,提供高質量的圖像生成和編輯能力,適用於圖像領域的開發應用。
valiantcat
Qwen-Image-Edit-MeiTu是基於Qwen-Image-Edit的改進版本,採用DiT架構微調,專注於提升複雜圖像編輯中的視覺一致性、美學質量和結構對齊能力。
Lightricks
首個基於DiT架構的即時高質量視頻生成模型,支持1216×704分辨率30FPS生成
首個基於DiT架構的即時高質量視頻生成模型,能以30幀/秒生成1216×704分辨率視頻
DiTy
該模型是基於google/gemma-2-9b-it針對函數調用任務進行微調的版本,訓練數據完全由人工標註,使用了俄語版本的DiTy/function-calling數據集。
kaupane
基於Wikiart數據集訓練的擴散變換器模型,用於生成藝術作品圖像
基於Wikiart數據集訓練的擴散變換器模型,用於生成藝術風格圖像
基於DiT架構的即時高質量視頻生成模型,支持文本轉視頻及圖像轉視頻兩種應用場景
首個基於DiT的視頻生成模型,能夠即時生成高質量視頻,支持文本轉視頻及圖像+文本轉視頻兩種場景
ByteDance
InfiniteYou(InfU)是一個基於FLUX擴散變換器(DiT)的身份保持圖像生成框架,能夠在保持身份特徵的同時實現靈活的圖片重塑。
jobs-git
首個基於DiT架構的即時高質量視頻生成模型,支持文本到視頻和圖像到視頻生成
首個基於DiT的視頻生成模型,能夠即時生成高質量視頻,支持文本轉視頻和圖像+文本轉視頻兩種場景。
conjuncts
該模型是一個基於transformers庫的模型,具體功能和用途需要進一步信息確認。
THUDM
CogView3-Plus-3B是CogView3的DiT版本,支持512至2048像素的文本生成圖像功能。
3DTopia
3DTopia-XL是一個基於擴散變換器(DiT)和PrimX表示的高質量3D資產生成模型,能夠從文本或圖像輸入快速生成3D PBR資產。
cmarkea
基於microsoft/dit-base微調的文檔圖像佈局檢測模型,可識別11類文檔元素
基於DeepPavlov/rubert-base-cased預訓練模型並通過MS-MARCO俄語段落排序數據集微調的sentence-transformers模型,用於俄語信息檢索任務。
基於DeepPavlov/rubert-base-cased預訓練模型,使用MS-MARCO俄語段落排序數據集微調的sentence-transformers模型,用於俄語的非對稱語義搜索。
jzju
基於DIT架構的文檔圖像分割模型,專門用於識別和分割文檔中的不同元素類型。
DiTo97
基於SegFormer-B3架構微調的文檔圖像二值化模型,在DIBCO評估指標上表現優異