李飞飞World Labs推出Marble 3D世界模型公测版,支持文本、图像、视频等多模态输入,快速生成可交互虚拟宇宙,助力开发者探索AI技术应用。
知名AI专家李飞飞的World Labs推出Marble3D世界模型公测版,支持文本、图像、视频或3D布局直接生成完整可导航的3D虚拟世界。用户可实时交互编辑,并导出高斯溅射、三角网格或视频格式。此次公测标志着该产品从实验室概念转向实用工具。
人工智能专家李飞飞联合创办的World Labs推出首款商业化世界模型Marble,支持文本、图片、视频及3D布局生成可编辑3D环境。产品提供免费增值和付费订阅,适用于游戏、影视、VR等领域。距公司完成2.3亿美元融资仅一年多,展现快速发展势头。
字节跳动发布InfinityStar框架,视频生成效率大幅提升,5秒720p视频仅需58秒。该框架统一支持图像生成、文本生成视频、视频续写等多种视觉任务,基于对视频数据本质的深入理解,采用创新的时空分离设计,突破传统3D数据块处理方式。
Marble可让用户通过简单提示创建、编辑和分享高保真3D世界。
腾讯混元3D驱动的图片转3D与STL转换器,快速生成高精度3D模型
免费在线将PNG转换为STL,适用于3D打印和3D编辑软件。
Hitem3D是由AI驱动的下一代3D模型生成器,速度快且精度高。
tencent
$18
输入tokens/百万
输出tokens/百万
32k
上下文长度
GatorBarbarian
TRELLIS Text XL是一个大型3D生成模型,是TRELLIS的文本条件版本,模型大小为XL。该模型基于论文《Structured 3D Latents for Scalable and Versatile 3D Generation》提出,能够根据文本描述生成高质量的3D内容。
Ashmotv
animat3d_style_wan-lora是基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频生成,可为图像生成带来独特的3D动画风格效果。该模型基于Wan2.2-T2V-A14B基础模型进行微调,支持多种主流AI平台使用。
facebook
MapAnything是一个端到端训练的Transformer模型,能够以多种模态作为输入,直接回归场景的分解度量3D几何结构。该模型支持超过12种不同的3D重建任务,包括多图像SfM、多视图立体视觉、单目度量深度估计等。
manycore-research
FLUX.1-Layout-ControlNet是SpatialGen框架的关键组件,是一个基于语义图像条件化的ControlNet模型。它能够根据文本描述生成2D图像,同时严格遵循输入语义图像的布局约束,主要用于3D室内场景合成。
yslan
STream3R是一种基于因果Transformer的可扩展序列3D重建模型,将点云图预测重新定义为仅解码器的Transformer问题。它引入流式处理框架,利用因果注意力高效处理图像序列,能够很好地泛化到各种具有挑战性的场景,包括传统方法经常失效的动态场景。
nvidia
ESM-2是NVIDIA基于TransformerEngine优化的蛋白质语言模型,能够从氨基酸序列预测蛋白质3D结构。该模型采用掩码语言建模目标训练,在NVIDIA GPU上具有更快的训练和推理速度。
ilkerzgi
这是一个LoRA模型,可将普通图像转换为具有黑色背景和3D视角的金属风格图像。
lhjiang
AnySplat是一种先进的3D高斯散点渲染模型,能够从不同视角的图像高效生成高质量的3D场景。该模型具有快速推理能力和良好的泛化性能,为3D重建和渲染提供了创新的解决方案。
混元3D-2是一款支持图像到3D、文本到3D转换的工具,为3D内容生成提供了强大的解决方案。
shakamone
TRELLIS是一个基于图像条件的大型3D生成模型,采用结构化3D潜变量实现可扩展与多功能的3D生成。
davidleiva4999
TRELLIS的文本条件版本,采用XL大模型规模,是一款强大的3D生成模型。
unsloth
InternVL3-78B-Instruct是一个先进的多模态大语言模型,在多模态感知、推理和语言处理等方面表现出色。该模型通过原生多模态预训练方法,将视觉和语言学习整合到统一训练阶段,在工具使用、GUI代理、工业图像分析、3D视觉感知等多个领域展现出卓越能力。
ImrozeAslamMalik
LGM是一个整合了多视角扩散模型的图像转3D工作流,能够从单张图像生成高质量3D内容。
ImrozeAslam
混元3D 2.0是一个先进的大规模3D合成系统,用于生成高分辨率带纹理的3D资产。
InternVL3-14B-Instruct 是一个先进的多模态大语言模型(MLLM),展示了卓越的多模态感知和推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种任务。
InternVL3-78B是一款先进的多模态大语言模型,具备卓越的多模态感知和推理能力,在工具使用、GUI代理、工业图像分析、3D视觉感知等领域表现出色,整体文本性能也十分优秀。
InternVL3-14B是一个先进的多模态大语言模型,在InternVL 2.5基础上显著提升了多模态感知和推理能力,并拓展了工具使用、GUI代理、工业图像分析、3D视觉感知等领域的应用。
Surn
TRELLIS图像条件版本是一个大型3D生成模型,能够从图像生成3D内容。
larsquaedvlieg
TRELLIS是一个基于文本条件的大型3D生成模型,采用结构化3D潜变量实现可扩展与多功能的3D内容生成。
TRELLIS是一个大型3D生成模型,通过结构化3D潜变量实现可扩展与多功能的3D内容生成。
BlenderMCP通过MCP协议将Blender与Claude AI连接,实现AI辅助3D建模与场景控制
Tripo MCP Server是一个连接AI助手与Tripo AI的接口项目,支持通过自然语言生成3D资产并导入Blender。
Blender MCP VXAI 是一个强大的集成工具,允许用户通过自然语言控制 Blender,实现 3D 建模、动画和场景的创建与修改。它简化了复杂操作,并支持实时导出到项目中。
FreeCAD MCP是一个通过Claude Desktop控制FreeCAD的插件,支持从2D图纸创建3D模型等多种设计功能。
Tripo MCP Server是一个连接AI助手与Tripo AI的接口工具,支持通过自然语言生成3D资产并导入Blender。
RhinoMCP是一个连接Rhino 3D建模软件与AI代理的工具,通过Model Context Protocol实现双向交互,支持3D对象操作、文档检查和脚本执行。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的服务,支持多视角重建、AI图像生成、远程CUDA处理和工作流审批,最终输出OpenSCAD兼容的模型文件。
一个利用AI生成游戏资源的工具,支持2D和3D资源创建,集成Hugging Face和MCP协议。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的工具,支持多视角重建和远程处理。
Cinema4D MCP Server是一个连接Cinema 4D与Claude的桥梁,通过提示词辅助进行3D场景操作和建模。
RhinoMCP是一个连接Rhino3D和Claude AI的集成项目,通过Model Context Protocol实现AI辅助3D建模、分析和设计工作流。
Worker17是一个结合3D监控与MCP协议的工人管理系统,包含Web可视化界面和服务器端,支持通过Claude Desktop进行AI辅助管理。项目起初是个玩笑,后发展为MCP服务器技术探索。
MCP 3D打印机服务器是一个连接Claude与多种3D打印机管理系统的协议服务器,支持OctoPrint、Klipper、Duet等多种打印机API,提供文件管理、打印控制、STL模型处理等高级功能。
Spline MCP服务器是一个为Spline 3D设计工具API提供接口的中间件服务
VGGT-MPS是基于苹果芯片优化的3D视觉重建工具,使用Metal Performance Shaders加速,能够从单张或多张图像生成深度图、相机姿态和3D点云,支持稀疏注意力实现城市级重建。
GH_mcp_server是一个通过LLMs直接与Rhino和Grasshopper交互的工具,支持分析3dm文件、3D建模及自动生成GHPython代码。
Rhino MCP服务器项目,实现Claude AI与Rhino 3D的交互,支持3D对象的创建与操作
一个基于OpenSCAD的MCP服务器,通过AI生成多视角图像并重建为参数化3D模型,支持远程CUDA加速处理。
MCP-Slicer是一个将3D Slicer与模型客户端(如Claude)通过MCP协议连接的集成工具,支持通过自然语言直接操作3D Slicer进行医学图像处理和场景控制。
Rhino 3D的MCP服务器实现项目,允许AI通过模型上下文协议创建和操作3D对象,包含Python和C#组件,目前处于开发阶段。