火山引擎在Gartner《AI應用開發平臺魔力象限》中,憑藉豆包大模型和火山方舟平臺,位列中國區“落地能力”榜首,全球排名第五,展示其AI技術實力。
Meta AI推出SAM3D模型,包含通用物體和人體專用兩套權重。僅需單張2D照片即可生成帶紋理、材質和幾何一致性的3D資產,效果優於現有主流方案。該模型通過聯合編碼空間位置與語義信息,預測像素的3D座標和表面法向,具備物理正確性,可直接應用於AR/VR、機器人和影視製作等領域。
谷歌DeepMind推出SIMA2通用智能體,升級採用Gemini模型,能理解目標、解釋計劃並自我學習,在複雜3D遊戲中持續進步。其前身SIMA1於2024年發佈,通過圖像和虛擬設備控制,掌握600多項語言指令,任務完成率約31%,低於人類玩家水平。
螞蟻集團發佈全模態AI助手“靈光”,支持自然語言30秒生成可編輯、交互、分享的移動端小應用。作爲業內首個全代碼生成多模態內容的AI助手,它首批上線三大功能,涵蓋3D、音視頻等全模態輸出,提升對話生動性和交流效率,已登陸安卓與蘋果平臺。
通過 AI 設計代理快速生成專業圖像、視頻和 3D 模型。
Marble可讓用戶通過簡單提示創建、編輯和分享高保真3D世界。
騰訊混元3D驅動的圖片轉3D與STL轉換器,快速生成高精度3D模型
免費在線將PNG轉換為STL,適用於3D打印和3D編輯軟件。
tencent
$18
輸入tokens/百萬
輸出tokens/百萬
32k
上下文長度
GatorBarbarian
TRELLIS Text XL是一個大型3D生成模型,是TRELLIS的文本條件版本,模型大小為XL。該模型基於論文《Structured 3D Latents for Scalable and Versatile 3D Generation》提出,能夠根據文本描述生成高質量的3D內容。
Ashmotv
animat3d_style_wan-lora是基於AI Toolkit by Ostris訓練的LoRA模型,專門用於文本到視頻生成,可為圖像生成帶來獨特的3D動畫風格效果。該模型基於Wan2.2-T2V-A14B基礎模型進行微調,支持多種主流AI平臺使用。
facebook
MapAnything是一個端到端訓練的Transformer模型,能夠以多種模態作為輸入,直接回歸場景的分解度量3D幾何結構。該模型支持超過12種不同的3D重建任務,包括多圖像SfM、多視圖立體視覺、單目度量深度估計等。
manycore-research
FLUX.1-Layout-ControlNet是SpatialGen框架的關鍵組件,是一個基於語義圖像條件化的ControlNet模型。它能夠根據文本描述生成2D圖像,同時嚴格遵循輸入語義圖像的佈局約束,主要用於3D室內場景合成。
yslan
STream3R是一種基於因果Transformer的可擴展序列3D重建模型,將點雲圖預測重新定義為僅解碼器的Transformer問題。它引入流式處理框架,利用因果注意力高效處理圖像序列,能夠很好地泛化到各種具有挑戰性的場景,包括傳統方法經常失效的動態場景。
nvidia
ESM-2是NVIDIA基於TransformerEngine優化的蛋白質語言模型,能夠從氨基酸序列預測蛋白質3D結構。該模型採用掩碼語言建模目標訓練,在NVIDIA GPU上具有更快的訓練和推理速度。
ilkerzgi
這是一個LoRA模型,可將普通圖像轉換為具有黑色背景和3D視角的金屬風格圖像。
lhjiang
AnySplat是一種先進的3D高斯散點渲染模型,能夠從不同視角的圖像高效生成高質量的3D場景。該模型具有快速推理能力和良好的泛化性能,為3D重建和渲染提供了創新的解決方案。
混元3D-2是一款支持圖像到3D、文本到3D轉換的工具,為3D內容生成提供了強大的解決方案。
shakamone
TRELLIS是一個基於圖像條件的大型3D生成模型,採用結構化3D潛變量實現可擴展與多功能的3D生成。
davidleiva4999
TRELLIS的文本條件版本,採用XL大模型規模,是一款強大的3D生成模型。
unsloth
InternVL3-78B-Instruct是一個先進的多模態大語言模型,在多模態感知、推理和語言處理等方面表現出色。該模型通過原生多模態預訓練方法,將視覺和語言學習整合到統一訓練階段,在工具使用、GUI代理、工業圖像分析、3D視覺感知等多個領域展現出卓越能力。
ImrozeAslamMalik
LGM是一個整合了多視角擴散模型的圖像轉3D工作流,能夠從單張圖像生成高質量3D內容。
ImrozeAslam
混元3D 2.0是一個先進的大規模3D合成系統,用於生成高分辨率帶紋理的3D資產。
InternVL3-14B-Instruct 是一個先進的多模態大語言模型(MLLM),展示了卓越的多模態感知和推理能力,支持工具使用、GUI代理、工業圖像分析、3D視覺感知等多種任務。
InternVL3-78B是一款先進的多模態大語言模型,具備卓越的多模態感知和推理能力,在工具使用、GUI代理、工業圖像分析、3D視覺感知等領域表現出色,整體文本性能也十分優秀。
InternVL3-14B是一個先進的多模態大語言模型,在InternVL 2.5基礎上顯著提升了多模態感知和推理能力,並拓展了工具使用、GUI代理、工業圖像分析、3D視覺感知等領域的應用。
Surn
TRELLIS圖像條件版本是一個大型3D生成模型,能夠從圖像生成3D內容。
larsquaedvlieg
TRELLIS是一個基於文本條件的大型3D生成模型,採用結構化3D潛變量實現可擴展與多功能的3D內容生成。
TRELLIS是一個大型3D生成模型,通過結構化3D潛變量實現可擴展與多功能的3D內容生成。
BlenderMCP通過MCP協議將Blender與Claude AI連接,實現AI輔助3D建模與場景控制
Blender MCP VXAI 是一個強大的集成工具,允許用戶通過自然語言控制 Blender,實現 3D 建模、動畫和場景的創建與修改。它簡化了複雜操作,並支持即時導出到項目中。
Tripo MCP Server是一個連接AI助手與Tripo AI的接口項目,支持通過自然語言生成3D資產並導入Blender。
FreeCAD MCP是一個通過Claude Desktop控制FreeCAD的插件,支持從2D圖紙創建3D模型等多種設計功能。
RhinoMCP是一個連接Rhino 3D建模軟件與AI代理的工具,通過Model Context Protocol實現雙向交互,支持3D對象操作、文檔檢查和腳本執行。
Tripo MCP Server是一個連接AI助手與Tripo AI的接口工具,支持通過自然語言生成3D資產並導入Blender。
Trellis MCP是一個連接AI助手與Trellis 3D生成模型的接口服務,支持通過自然語言快速生成3D資產並導入Blender。該項目基於開源模型,需自行部署API後端,具有快速、免費的特點,但存在穩定性風險。
MCP STL 3D浮雕生成器是一個將2D圖像轉換為3D浮雕模型的工具,支持控制模型尺寸、添加基座和深度反轉等功能,適合3D打印和渲染。
MCP 3D打印機服務器是一個連接Claude與多種3D打印機管理系統的中間件,支持OctoPrint、Klipper、Duet等主流平臺,提供打印機控制、文件管理及高級STL模型處理功能。
HoudiniMCP是一個連接Houdini與Claude AI的第三方集成工具,通過MCP協議實現AI輔助3D創作。
SketchupMCP通過模型上下文協議(MCP)將Sketchup與Claude AI連接,實現雙向通信和3D建模控制。
SMMS項目構建了一個基於語義地圖的MCP服務器,提供3D實例對象管理功能,包括數據庫操作、RAG檢索和認知拓撲圖生成。
MCP 3D打印服務器是一個連接Claude與多種3D打印機管理系統的協議服務器,支持OctoPrint、Klipper等多種打印機API,提供文件管理、打印控制和高級STL模型處理功能。
SketchupMCP是一個通過模型上下文協議(MCP)將Sketchup與Claude AI連接的整合工具,實現AI輔助3D建模和場景控制。
Rhino MCP服務器項目,實現Claude AI與Rhino 3D的交互,支持3D對象的創建與操作
Blender與本地AI模型集成的開源項目,通過自然語言控制3D建模。
遊戲資產生成器利用AI模型和MCP協議,通過文本提示快速生成2D和3D遊戲資源。
GH_mcp_server是一個通過LLM直接與Rhino和Grasshopper交互的工具,支持分析3DM文件、3D建模及自動生成Grasshopper的GHPython代碼。
Cinema4D MCP Server是一個連接Cinema 4D與Claude的橋樑,通過提示詞輔助進行3D場景操作和建模。
GH_mcp_server是一個通過LLMs直接與Rhino和Grasshopper交互的工具,支持分析3dm文件、3D建模及自動生成GHPython代碼。