字節跳動Seed團隊發佈新一代3D生成大模型Seed3D2.0,在幾何精度與材質真實度上實現突破,核心指標達行業領先水平,有效解決邊緣軟化、拓撲失真等痛點。模型採用“粗到精”兩階段DiT架構,通過解耦整體結構與細節,推動AI 3D內容生成邁向“生產級可用”。
通義千問發佈圖像生成模型Qwen-Image-Layered,創新採用“圖層拆解”技術,實現靜態圖片的精準編輯。該模型通過“圖像解耦”思路,將圖片自動分層,有效解決傳統AI編輯中全局修改破壞一致性和局部編輯處理遮擋模糊邊界的兩大痛點,開啓“指哪改哪”的新時代。
vLLM團隊推出首個“全模態”推理框架vLLM-Omni,將文本、圖像、音頻、視頻的統一生成從概念驗證變爲可落地的代碼。該框架採用解耦流水線架構,包括模態編碼器(如ViT、Whisper)、LLM核心(沿用vLLM自迴歸引擎)和模態生成器(如DiT、Stable Diffusion),支持多模態輸入與輸出。開發者可通過GitHub和ReadTheDocs獲取,並立即pip安裝使用。
崑崙元AI在2025世界計算大會上發佈全模態融合模型BaiZe-Omni-14b-a2b,基於昇騰平臺,具備文本、音頻、圖像和視頻的理解與生成能力。採用模態解耦編碼、統一跨模態融合和雙分支功能設計等創新架構,推動多模態應用發展。模型流程包括輸入處理、模態適配、融合、核心功能和輸出解碼。
Google
$0.49
輸入tokens/百萬
$2.1
輸出tokens/百萬
1k
上下文長度
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$6
$24
256
$4
$16
Baidu
128
Bytedance
$1.2
$3.6
4
Ricky06662
VisionReasoner-7B是一個圖像文本到文本的模型,採用解耦架構,由推理模型和分割模型組成,能解讀用戶意圖並生成像素級掩碼。
deepseek-community
Janus-Pro是一種新穎的自迴歸框架,統一了多模態理解和生成,通過解耦視覺編碼路徑增強靈活性。
Janus-Pro是一種新穎的自迴歸框架,統一了多模態理解和生成任務,通過解耦視覺編碼增強靈活性。
Athagi
Janus-Pro 是一種新穎的自迴歸框架,統一了多模態理解和生成。它通過解耦視覺編碼路徑,使用單一的統一 Transformer 架構處理多模態任務。
deepseek-ai
Janus-Pro 是一種新穎的自迴歸框架,統一了多模態理解與生成能力。通過解耦視覺編碼路徑,使用單一 Transformer 架構處理多模態任務。
Janus-Pro 是一種創新的自迴歸框架,統一了多模態理解與生成功能。通過解耦視覺編碼路徑,採用單一Transformer架構處理,解決了視覺編碼器在理解與生成角色間的衝突。
Janus 是一種新穎的自迴歸框架,統一了多模態理解與生成。它通過解耦視覺編碼,解決了先前方法的侷限性,增強了框架的靈活性。
RED-AIGC
TDD是一種通過目標時間步選擇與解耦引導的一致性蒸餾方法,能夠顯著減少生成高質量圖像所需的推理步數(僅需4-8步)。