李飛飛World Labs推出Marble 3D世界模型公測版,支持文本、圖像、視頻等多模態輸入,快速生成可交互虛擬宇宙,助力開發者探索AI技術應用。
知名AI專家李飛飛的World Labs推出Marble3D世界模型公測版,支持文本、圖像、視頻或3D佈局直接生成完整可導航的3D虛擬世界。用戶可實時交互編輯,並導出高斯濺射、三角網格或視頻格式。此次公測標誌着該產品從實驗室概念轉向實用工具。
人工智能專家李飛飛聯合創辦的World Labs推出首款商業化世界模型Marble,支持文本、圖片、視頻及3D佈局生成可編輯3D環境。產品提供免費增值和付費訂閱,適用於遊戲、影視、VR等領域。距公司完成2.3億美元融資僅一年多,展現快速發展勢頭。
字節跳動發佈InfinityStar框架,視頻生成效率大幅提升,5秒720p視頻僅需58秒。該框架統一支持圖像生成、文本生成視頻、視頻續寫等多種視覺任務,基於對視頻數據本質的深入理解,採用創新的時空分離設計,突破傳統3D數據塊處理方式。
Marble可讓用戶通過簡單提示創建、編輯和分享高保真3D世界。
騰訊混元3D驅動的圖片轉3D與STL轉換器,快速生成高精度3D模型
免費在線將PNG轉換為STL,適用於3D打印和3D編輯軟件。
Hitem3D是由AI驅動的下一代3D模型生成器,速度快且精度高。
tencent
$18
輸入tokens/百萬
輸出tokens/百萬
32k
上下文長度
GatorBarbarian
TRELLIS Text XL是一個大型3D生成模型,是TRELLIS的文本條件版本,模型大小為XL。該模型基於論文《Structured 3D Latents for Scalable and Versatile 3D Generation》提出,能夠根據文本描述生成高質量的3D內容。
Ashmotv
animat3d_style_wan-lora是基於AI Toolkit by Ostris訓練的LoRA模型,專門用於文本到視頻生成,可為圖像生成帶來獨特的3D動畫風格效果。該模型基於Wan2.2-T2V-A14B基礎模型進行微調,支持多種主流AI平臺使用。
facebook
MapAnything是一個端到端訓練的Transformer模型,能夠以多種模態作為輸入,直接回歸場景的分解度量3D幾何結構。該模型支持超過12種不同的3D重建任務,包括多圖像SfM、多視圖立體視覺、單目度量深度估計等。
manycore-research
FLUX.1-Layout-ControlNet是SpatialGen框架的關鍵組件,是一個基於語義圖像條件化的ControlNet模型。它能夠根據文本描述生成2D圖像,同時嚴格遵循輸入語義圖像的佈局約束,主要用於3D室內場景合成。
yslan
STream3R是一種基於因果Transformer的可擴展序列3D重建模型,將點雲圖預測重新定義為僅解碼器的Transformer問題。它引入流式處理框架,利用因果注意力高效處理圖像序列,能夠很好地泛化到各種具有挑戰性的場景,包括傳統方法經常失效的動態場景。
nvidia
ESM-2是NVIDIA基於TransformerEngine優化的蛋白質語言模型,能夠從氨基酸序列預測蛋白質3D結構。該模型採用掩碼語言建模目標訓練,在NVIDIA GPU上具有更快的訓練和推理速度。
ilkerzgi
這是一個LoRA模型,可將普通圖像轉換為具有黑色背景和3D視角的金屬風格圖像。
lhjiang
AnySplat是一種先進的3D高斯散點渲染模型,能夠從不同視角的圖像高效生成高質量的3D場景。該模型具有快速推理能力和良好的泛化性能,為3D重建和渲染提供了創新的解決方案。
混元3D-2是一款支持圖像到3D、文本到3D轉換的工具,為3D內容生成提供了強大的解決方案。
shakamone
TRELLIS是一個基於圖像條件的大型3D生成模型,採用結構化3D潛變量實現可擴展與多功能的3D生成。
davidleiva4999
TRELLIS的文本條件版本,採用XL大模型規模,是一款強大的3D生成模型。
unsloth
InternVL3-78B-Instruct是一個先進的多模態大語言模型,在多模態感知、推理和語言處理等方面表現出色。該模型通過原生多模態預訓練方法,將視覺和語言學習整合到統一訓練階段,在工具使用、GUI代理、工業圖像分析、3D視覺感知等多個領域展現出卓越能力。
ImrozeAslamMalik
LGM是一個整合了多視角擴散模型的圖像轉3D工作流,能夠從單張圖像生成高質量3D內容。
ImrozeAslam
混元3D 2.0是一個先進的大規模3D合成系統,用於生成高分辨率帶紋理的3D資產。
InternVL3-14B-Instruct 是一個先進的多模態大語言模型(MLLM),展示了卓越的多模態感知和推理能力,支持工具使用、GUI代理、工業圖像分析、3D視覺感知等多種任務。
InternVL3-78B是一款先進的多模態大語言模型,具備卓越的多模態感知和推理能力,在工具使用、GUI代理、工業圖像分析、3D視覺感知等領域表現出色,整體文本性能也十分優秀。
InternVL3-14B是一個先進的多模態大語言模型,在InternVL 2.5基礎上顯著提升了多模態感知和推理能力,並拓展了工具使用、GUI代理、工業圖像分析、3D視覺感知等領域的應用。
Surn
TRELLIS圖像條件版本是一個大型3D生成模型,能夠從圖像生成3D內容。
larsquaedvlieg
TRELLIS是一個基於文本條件的大型3D生成模型,採用結構化3D潛變量實現可擴展與多功能的3D內容生成。
TRELLIS是一個大型3D生成模型,通過結構化3D潛變量實現可擴展與多功能的3D內容生成。
BlenderMCP通過MCP協議將Blender與Claude AI連接,實現AI輔助3D建模與場景控制
Blender MCP VXAI 是一個強大的集成工具,允許用戶通過自然語言控制 Blender,實現 3D 建模、動畫和場景的創建與修改。它簡化了複雜操作,並支持即時導出到項目中。
Tripo MCP Server是一個連接AI助手與Tripo AI的接口項目,支持通過自然語言生成3D資產並導入Blender。
FreeCAD MCP是一個通過Claude Desktop控制FreeCAD的插件,支持從2D圖紙創建3D模型等多種設計功能。
RhinoMCP是一個連接Rhino 3D建模軟件與AI代理的工具,通過Model Context Protocol實現雙向交互,支持3D對象操作、文檔檢查和腳本執行。
Tripo MCP Server是一個連接AI助手與Tripo AI的接口工具,支持通過自然語言生成3D資產並導入Blender。
MCP 3D打印機服務器是一個連接Claude與多種3D打印機管理系統的中間件,支持OctoPrint、Klipper、Duet等主流平臺,提供打印機控制、文件管理及高級STL模型處理功能。
Trellis MCP是一個連接AI助手與Trellis 3D生成模型的接口服務,支持通過自然語言快速生成3D資產並導入Blender。該項目基於開源模型,需自行部署API後端,具有快速、免費的特點,但存在穩定性風險。
HoudiniMCP是一個連接Houdini與Claude AI的第三方集成工具,通過MCP協議實現AI輔助3D創作。
SketchupMCP通過模型上下文協議(MCP)將Sketchup與Claude AI連接,實現雙向通信和3D建模控制。
MCP STL 3D浮雕生成器是一個將2D圖像轉換為3D浮雕模型的工具,支持控制模型尺寸、添加基座和深度反轉等功能,適合3D打印和渲染。
SMMS項目構建了一個基於語義地圖的MCP服務器,提供3D實例對象管理功能,包括數據庫操作、RAG檢索和認知拓撲圖生成。
SketchupMCP是一個通過模型上下文協議(MCP)將Sketchup與Claude AI連接的整合工具,實現AI輔助3D建模和場景控制。
Blender與本地AI模型集成的開源項目,通過自然語言控制3D建模。
MCP 3D打印服務器是一個連接Claude與多種3D打印機管理系統的協議服務器,支持OctoPrint、Klipper等多種打印機API,提供文件管理、打印控制和高級STL模型處理功能。
Rhino MCP服務器項目,實現Claude AI與Rhino 3D的交互,支持3D對象的創建與操作
遊戲資產生成器利用AI模型和MCP協議,通過文本提示快速生成2D和3D遊戲資源。
GH_mcp_server是一個通過LLM直接與Rhino和Grasshopper交互的工具,支持分析3DM文件、3D建模及自動生成Grasshopper的GHPython代碼。
GH_mcp_server是一個通過LLMs直接與Rhino和Grasshopper交互的工具,支持分析3dm文件、3D建模及自動生成GHPython代碼。
Cinema4D MCP Server是一個連接Cinema 4D與Claude的橋樑,通過提示詞輔助進行3D場景操作和建模。