復旦大學博士生團隊研發的裸眼3D技術EyeReal登上《Nature》,無需眼鏡即可實現精準3D顯示,標誌着科幻場景走進現實。
快手旗下可靈AI發佈“主體庫”,爲O1多模態視頻模型增加長期記憶功能。用戶上傳單張角色圖,系統可生成3D視角補全和多光線變體,支持跨場景一鍵調用角色,主體一致性超96%。流程包括上傳圖片自動處理、AI補全多角度視圖,實現從單圖到3D記憶的轉換。
快手Kling AI 2.6版本發佈,首次集成音頻生成功能,支持中英雙語對白、歌唱與音效,實現文本、視頻、音頻一鍵同步生成。技術採用擴散變換器與3D時空聯合注意力架構,提升複雜指令遵守率15%,並增強跨鏡頭角色一致性。視頻輸出保持10秒1080P高清,生成成本降低30%。
微軟11月29日向Windows 11 Copilot用戶推送更新:免費開放GPT-5.1模型,一鍵啓用原付費“Think Deeper”深度推理功能。新增“Labs”實驗區,首批上線WinUI 3“Vision”實時畫面解析組件,後續將逐步加入3D生成、音頻表達等功能。“Actions”特性正在內測中。
先進AI技術,可將文字和圖像瞬間轉化為3D模型,無需3D建模經驗。
無需登錄,用預設提示生成圖像,免費試用3D圖、頭像等AI圖像工具。
SAM 3D:AI驅動,秒速將2D圖像轉化為專業級3D模型
Meta的單圖像3D重建模型,融合SAM 3分割與幾何紋理佈局預測生成3D資產
Tencent
-
輸入tokens/百萬
輸出tokens/百萬
24
上下文長度
$0.8
$2
32
Chatglm
HIT-TMG
Uni-MoE 2.0-Omni 是荔枝科技(Lychee)推出的完全開源全模態模型,採用全模態 3D RoPE 和動態容量專家混合架構,顯著提升了以語言為中心的多模態理解、推理和生成能力。該版本集成了全模態理解以及音頻和圖像生成能力。
GatorBarbarian
TRELLIS Text XL是一個大型3D生成模型,是TRELLIS的文本條件版本,模型大小為XL。該模型基於論文《Structured 3D Latents for Scalable and Versatile 3D Generation》提出,能夠根據文本描述生成高質量的3D內容。
Ashmotv
animat3d_style_wan-lora是基於AI Toolkit by Ostris訓練的LoRA模型,專門用於文本到視頻生成,可為圖像生成帶來獨特的3D動畫風格效果。該模型基於Wan2.2-T2V-A14B基礎模型進行微調,支持多種主流AI平臺使用。
facebook
MapAnything是一個端到端訓練的Transformer模型,能夠以多種模態作為輸入,直接回歸場景的分解度量3D幾何結構。該模型支持超過12種不同的3D重建任務,包括多圖像SfM、多視圖立體視覺、單目度量深度估計等。
manycore-research
FLUX.1-Layout-ControlNet是SpatialGen框架的關鍵組件,是一個基於語義圖像條件化的ControlNet模型。它能夠根據文本描述生成2D圖像,同時嚴格遵循輸入語義圖像的佈局約束,主要用於3D室內場景合成。
yslan
STream3R是一種基於因果Transformer的可擴展序列3D重建模型,將點雲圖預測重新定義為僅解碼器的Transformer問題。它引入流式處理框架,利用因果注意力高效處理圖像序列,能夠很好地泛化到各種具有挑戰性的場景,包括傳統方法經常失效的動態場景。
nvidia
ESM-2是NVIDIA基於TransformerEngine優化的蛋白質語言模型,能夠從氨基酸序列預測蛋白質3D結構。該模型採用掩碼語言建模目標訓練,在NVIDIA GPU上具有更快的訓練和推理速度。
ilkerzgi
這是一個LoRA模型,可將普通圖像轉換為具有黑色背景和3D視角的金屬風格圖像。
lhjiang
AnySplat是一種先進的3D高斯散點渲染模型,能夠從不同視角的圖像高效生成高質量的3D場景。該模型具有快速推理能力和良好的泛化性能,為3D重建和渲染提供了創新的解決方案。
tencent
混元3D-2是一款支持圖像到3D、文本到3D轉換的工具,為3D內容生成提供了強大的解決方案。
shakamone
TRELLIS是一個基於圖像條件的大型3D生成模型,採用結構化3D潛變量實現可擴展與多功能的3D生成。
davidleiva4999
TRELLIS的文本條件版本,採用XL大模型規模,是一款強大的3D生成模型。
unsloth
InternVL3-78B-Instruct是一個先進的多模態大語言模型,在多模態感知、推理和語言處理等方面表現出色。該模型通過原生多模態預訓練方法,將視覺和語言學習整合到統一訓練階段,在工具使用、GUI代理、工業圖像分析、3D視覺感知等多個領域展現出卓越能力。
ImrozeAslamMalik
LGM是一個整合了多視角擴散模型的圖像轉3D工作流,能夠從單張圖像生成高質量3D內容。
ImrozeAslam
混元3D 2.0是一個先進的大規模3D合成系統,用於生成高分辨率帶紋理的3D資產。
InternVL3-14B-Instruct 是一個先進的多模態大語言模型(MLLM),展示了卓越的多模態感知和推理能力,支持工具使用、GUI代理、工業圖像分析、3D視覺感知等多種任務。
InternVL3-2B-Instruct是先進的多模態大語言模型,相比前代有更出色的多模態感知和推理能力,擴展了工具使用、GUI代理、工業圖像分析、3D視覺感知等方面。採用原生多模態預訓練方法,將語言和視覺學習整合到單個預訓練階段。
InternVL3-78B是一款先進的多模態大語言模型,具備卓越的多模態感知和推理能力,在工具使用、GUI代理、工業圖像分析、3D視覺感知等領域表現出色,整體文本性能也十分優秀。
InternVL3-14B是一個先進的多模態大語言模型,在InternVL 2.5基礎上顯著提升了多模態感知和推理能力,並拓展了工具使用、GUI代理、工業圖像分析、3D視覺感知等領域的應用。
Surn
TRELLIS圖像條件版本是一個大型3D生成模型,能夠從圖像生成3D內容。
BlenderMCP通過MCP協議將Blender與Claude AI連接,實現AI輔助3D建模與場景控制
Blender MCP VXAI 是一個強大的集成工具,允許用戶通過自然語言控制 Blender,實現 3D 建模、動畫和場景的創建與修改。它簡化了複雜操作,並支持即時導出到項目中。
Tripo MCP Server是一個連接AI助手與Tripo AI的接口項目,支持通過自然語言生成3D資產並導入Blender。
FreeCAD MCP是一個通過Claude Desktop控制FreeCAD的插件,支持從2D圖紙創建3D模型等多種設計功能。
RhinoMCP是一個連接Rhino 3D建模軟件與AI代理的工具,通過Model Context Protocol實現雙向交互,支持3D對象操作、文檔檢查和腳本執行。
Tripo MCP Server是一個連接AI助手與Tripo AI的接口工具,支持通過自然語言生成3D資產並導入Blender。
Trellis MCP是一個連接AI助手與Trellis 3D生成模型的接口服務,支持通過自然語言快速生成3D資產並導入Blender。該項目基於開源模型,需自行部署API後端,具有快速、免費的特點,但存在穩定性風險。
HoudiniMCP是一個連接Houdini與Claude AI的第三方集成工具,通過MCP協議實現AI輔助3D創作。
MCP STL 3D浮雕生成器是一個將2D圖像轉換為3D浮雕模型的工具,支持控制模型尺寸、添加基座和深度反轉等功能,適合3D打印和渲染。
MCP 3D打印機服務器是一個連接Claude與多種3D打印機管理系統的中間件,支持OctoPrint、Klipper、Duet等主流平臺,提供打印機控制、文件管理及高級STL模型處理功能。
SketchupMCP通過模型上下文協議(MCP)將Sketchup與Claude AI連接,實現雙向通信和3D建模控制。
SMMS項目構建了一個基於語義地圖的MCP服務器,提供3D實例對象管理功能,包括數據庫操作、RAG檢索和認知拓撲圖生成。
SketchupMCP是一個通過模型上下文協議(MCP)將Sketchup與Claude AI連接的整合工具,實現AI輔助3D建模和場景控制。
MCP 3D打印服務器是一個連接Claude與多種3D打印機管理系統的協議服務器,支持OctoPrint、Klipper等多種打印機API,提供文件管理、打印控制和高級STL模型處理功能。
Rhino MCP服務器項目,實現Claude AI與Rhino 3D的交互,支持3D對象的創建與操作
Blender與本地AI模型集成的開源項目,通過自然語言控制3D建模。
遊戲資產生成器利用AI模型和MCP協議,通過文本提示快速生成2D和3D遊戲資源。
Cinema4D MCP Server是一個連接Cinema 4D與Claude的橋樑,通過提示詞輔助進行3D場景操作和建模。
GH_mcp_server是一個通過LLMs直接與Rhino和Grasshopper交互的工具,支持分析3dm文件、3D建模及自動生成GHPython代碼。
GH_mcp_server是一個通過LLM直接與Rhino和Grasshopper交互的工具,支持分析3DM文件、3D建模及自動生成Grasshopper的GHPython代碼。