火山引擎在Gartner《AI应用开发平台魔力象限》中,凭借豆包大模型和火山方舟平台,位列中国区“落地能力”榜首,全球排名第五,展示其AI技术实力。
Meta AI推出SAM3D模型,包含通用物体和人体专用两套权重。仅需单张2D照片即可生成带纹理、材质和几何一致性的3D资产,效果优于现有主流方案。该模型通过联合编码空间位置与语义信息,预测像素的3D坐标和表面法向,具备物理正确性,可直接应用于AR/VR、机器人和影视制作等领域。
谷歌DeepMind推出SIMA2通用智能体,升级采用Gemini模型,能理解目标、解释计划并自我学习,在复杂3D游戏中持续进步。其前身SIMA1于2024年发布,通过图像和虚拟设备控制,掌握600多项语言指令,任务完成率约31%,低于人类玩家水平。
蚂蚁集团发布全模态AI助手“灵光”,支持自然语言30秒生成可编辑、交互、分享的移动端小应用。作为业内首个全代码生成多模态内容的AI助手,它首批上线三大功能,涵盖3D、音视频等全模态输出,提升对话生动性和交流效率,已登陆安卓与苹果平台。
Meta的单图像3D重建模型,融合SAM 3分割与几何纹理布局预测生成3D资产
通过 AI 设计代理快速生成专业图像、视频和 3D 模型。
Marble可让用户通过简单提示创建、编辑和分享高保真3D世界。
腾讯混元3D驱动的图片转3D与STL转换器,快速生成高精度3D模型
tencent
$18
输入tokens/百万
输出tokens/百万
32k
上下文长度
GatorBarbarian
TRELLIS Text XL是一个大型3D生成模型,是TRELLIS的文本条件版本,模型大小为XL。该模型基于论文《Structured 3D Latents for Scalable and Versatile 3D Generation》提出,能够根据文本描述生成高质量的3D内容。
Ashmotv
animat3d_style_wan-lora是基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频生成,可为图像生成带来独特的3D动画风格效果。该模型基于Wan2.2-T2V-A14B基础模型进行微调,支持多种主流AI平台使用。
facebook
MapAnything是一个端到端训练的Transformer模型,能够以多种模态作为输入,直接回归场景的分解度量3D几何结构。该模型支持超过12种不同的3D重建任务,包括多图像SfM、多视图立体视觉、单目度量深度估计等。
manycore-research
FLUX.1-Layout-ControlNet是SpatialGen框架的关键组件,是一个基于语义图像条件化的ControlNet模型。它能够根据文本描述生成2D图像,同时严格遵循输入语义图像的布局约束,主要用于3D室内场景合成。
yslan
STream3R是一种基于因果Transformer的可扩展序列3D重建模型,将点云图预测重新定义为仅解码器的Transformer问题。它引入流式处理框架,利用因果注意力高效处理图像序列,能够很好地泛化到各种具有挑战性的场景,包括传统方法经常失效的动态场景。
nvidia
ESM-2是NVIDIA基于TransformerEngine优化的蛋白质语言模型,能够从氨基酸序列预测蛋白质3D结构。该模型采用掩码语言建模目标训练,在NVIDIA GPU上具有更快的训练和推理速度。
ilkerzgi
这是一个LoRA模型,可将普通图像转换为具有黑色背景和3D视角的金属风格图像。
lhjiang
AnySplat是一种先进的3D高斯散点渲染模型,能够从不同视角的图像高效生成高质量的3D场景。该模型具有快速推理能力和良好的泛化性能,为3D重建和渲染提供了创新的解决方案。
混元3D-2是一款支持图像到3D、文本到3D转换的工具,为3D内容生成提供了强大的解决方案。
shakamone
TRELLIS是一个基于图像条件的大型3D生成模型,采用结构化3D潜变量实现可扩展与多功能的3D生成。
davidleiva4999
TRELLIS的文本条件版本,采用XL大模型规模,是一款强大的3D生成模型。
unsloth
InternVL3-78B-Instruct是一个先进的多模态大语言模型,在多模态感知、推理和语言处理等方面表现出色。该模型通过原生多模态预训练方法,将视觉和语言学习整合到统一训练阶段,在工具使用、GUI代理、工业图像分析、3D视觉感知等多个领域展现出卓越能力。
ImrozeAslamMalik
LGM是一个整合了多视角扩散模型的图像转3D工作流,能够从单张图像生成高质量3D内容。
ImrozeAslam
混元3D 2.0是一个先进的大规模3D合成系统,用于生成高分辨率带纹理的3D资产。
InternVL3-14B-Instruct 是一个先进的多模态大语言模型(MLLM),展示了卓越的多模态感知和推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种任务。
InternVL3-78B是一款先进的多模态大语言模型,具备卓越的多模态感知和推理能力,在工具使用、GUI代理、工业图像分析、3D视觉感知等领域表现出色,整体文本性能也十分优秀。
InternVL3-14B是一个先进的多模态大语言模型,在InternVL 2.5基础上显著提升了多模态感知和推理能力,并拓展了工具使用、GUI代理、工业图像分析、3D视觉感知等领域的应用。
Surn
TRELLIS图像条件版本是一个大型3D生成模型,能够从图像生成3D内容。
larsquaedvlieg
TRELLIS是一个基于文本条件的大型3D生成模型,采用结构化3D潜变量实现可扩展与多功能的3D内容生成。
TRELLIS是一个大型3D生成模型,通过结构化3D潜变量实现可扩展与多功能的3D内容生成。
BlenderMCP通过MCP协议将Blender与Claude AI连接,实现AI辅助3D建模与场景控制
Tripo MCP Server是一个连接AI助手与Tripo AI的接口项目,支持通过自然语言生成3D资产并导入Blender。
Blender MCP VXAI 是一个强大的集成工具,允许用户通过自然语言控制 Blender,实现 3D 建模、动画和场景的创建与修改。它简化了复杂操作,并支持实时导出到项目中。
FreeCAD MCP是一个通过Claude Desktop控制FreeCAD的插件,支持从2D图纸创建3D模型等多种设计功能。
RhinoMCP是一个连接Rhino 3D建模软件与AI代理的工具,通过Model Context Protocol实现双向交互,支持3D对象操作、文档检查和脚本执行。
Tripo MCP Server是一个连接AI助手与Tripo AI的接口工具,支持通过自然语言生成3D资产并导入Blender。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的服务,支持多视角重建、AI图像生成、远程CUDA处理和工作流审批,最终输出OpenSCAD兼容的模型文件。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的工具,支持多视角重建和远程处理。
Cinema4D MCP Server是一个连接Cinema 4D与Claude的桥梁,通过提示词辅助进行3D场景操作和建模。
一个利用AI生成游戏资源的工具,支持2D和3D资源创建,集成Hugging Face和MCP协议。
MCP 3D打印机服务器是一个连接Claude与多种3D打印机管理系统的协议服务器,支持OctoPrint、Klipper、Duet等多种打印机API,提供文件管理、打印控制、STL模型处理等高级功能。
RhinoMCP是一个连接Rhino3D和Claude AI的集成项目,通过Model Context Protocol实现AI辅助3D建模、分析和设计工作流。
Worker17是一个结合3D监控与MCP协议的工人管理系统,包含Web可视化界面和服务器端,支持通过Claude Desktop进行AI辅助管理。项目起初是个玩笑,后发展为MCP服务器技术探索。
VGGT-MPS是基于苹果芯片优化的3D视觉重建工具,使用Metal Performance Shaders加速,能够从单张或多张图像生成深度图、相机姿态和3D点云,支持稀疏注意力实现城市级重建。
Rhino MCP服务器项目,实现Claude AI与Rhino 3D的交互,支持3D对象的创建与操作
Spline MCP服务器是一个为Spline 3D设计工具API提供接口的中间件服务
一个基于OpenSCAD的MCP服务器,通过AI生成多视角图像并重建为参数化3D模型,支持远程CUDA加速处理。
GH_mcp_server是一个通过LLMs直接与Rhino和Grasshopper交互的工具,支持分析3dm文件、3D建模及自动生成GHPython代码。
MCP-Slicer是一个将3D Slicer与模型客户端(如Claude)通过MCP协议连接的集成工具,支持通过自然语言直接操作3D Slicer进行医学图像处理和场景控制。
Rhino 3D的MCP服务器实现项目,允许AI通过模型上下文协议创建和操作3D对象,包含Python和C#组件,目前处于开发阶段。