复旦大学博士生团队研发的裸眼3D技术EyeReal登上《Nature》,无需眼镜即可实现精准3D显示,标志着科幻场景走进现实。
快手旗下可灵AI发布“主体库”,为O1多模态视频模型增加长期记忆功能。用户上传单张角色图,系统可生成3D视角补全和多光线变体,支持跨场景一键调用角色,主体一致性超96%。流程包括上传图片自动处理、AI补全多角度视图,实现从单图到3D记忆的转换。
快手Kling AI 2.6版本发布,首次集成音频生成功能,支持中英双语对白、歌唱与音效,实现文本、视频、音频一键同步生成。技术采用扩散变换器与3D时空联合注意力架构,提升复杂指令遵守率15%,并增强跨镜头角色一致性。视频输出保持10秒1080P高清,生成成本降低30%。
微软11月29日向Windows 11 Copilot用户推送更新:免费开放GPT-5.1模型,一键启用原付费“Think Deeper”深度推理功能。新增“Labs”实验区,首批上线WinUI 3“Vision”实时画面解析组件,后续将逐步加入3D生成、音频表达等功能。“Actions”特性正在内测中。
先进AI技术,可将文字和图像瞬间转化为3D模型,无需3D建模经验。
无需登录,用预设提示生成图像,免费试用3D图、头像等AI图像工具。
SAM 3D:AI驱动,秒速将2D图像转化为专业级3D模型
Meta的单图像3D重建模型,融合SAM 3分割与几何纹理布局预测生成3D资产
Tencent
-
输入tokens/百万
输出tokens/百万
24
上下文长度
$0.8
$2
32
Chatglm
HIT-TMG
Uni-MoE 2.0-Omni 是荔枝科技(Lychee)推出的完全开源全模态模型,采用全模态 3D RoPE 和动态容量专家混合架构,显著提升了以语言为中心的多模态理解、推理和生成能力。该版本集成了全模态理解以及音频和图像生成能力。
GatorBarbarian
TRELLIS Text XL是一个大型3D生成模型,是TRELLIS的文本条件版本,模型大小为XL。该模型基于论文《Structured 3D Latents for Scalable and Versatile 3D Generation》提出,能够根据文本描述生成高质量的3D内容。
Ashmotv
animat3d_style_wan-lora是基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频生成,可为图像生成带来独特的3D动画风格效果。该模型基于Wan2.2-T2V-A14B基础模型进行微调,支持多种主流AI平台使用。
facebook
MapAnything是一个端到端训练的Transformer模型,能够以多种模态作为输入,直接回归场景的分解度量3D几何结构。该模型支持超过12种不同的3D重建任务,包括多图像SfM、多视图立体视觉、单目度量深度估计等。
manycore-research
FLUX.1-Layout-ControlNet是SpatialGen框架的关键组件,是一个基于语义图像条件化的ControlNet模型。它能够根据文本描述生成2D图像,同时严格遵循输入语义图像的布局约束,主要用于3D室内场景合成。
yslan
STream3R是一种基于因果Transformer的可扩展序列3D重建模型,将点云图预测重新定义为仅解码器的Transformer问题。它引入流式处理框架,利用因果注意力高效处理图像序列,能够很好地泛化到各种具有挑战性的场景,包括传统方法经常失效的动态场景。
nvidia
ESM-2是NVIDIA基于TransformerEngine优化的蛋白质语言模型,能够从氨基酸序列预测蛋白质3D结构。该模型采用掩码语言建模目标训练,在NVIDIA GPU上具有更快的训练和推理速度。
ilkerzgi
这是一个LoRA模型,可将普通图像转换为具有黑色背景和3D视角的金属风格图像。
lhjiang
AnySplat是一种先进的3D高斯散点渲染模型,能够从不同视角的图像高效生成高质量的3D场景。该模型具有快速推理能力和良好的泛化性能,为3D重建和渲染提供了创新的解决方案。
tencent
混元3D-2是一款支持图像到3D、文本到3D转换的工具,为3D内容生成提供了强大的解决方案。
shakamone
TRELLIS是一个基于图像条件的大型3D生成模型,采用结构化3D潜变量实现可扩展与多功能的3D生成。
davidleiva4999
TRELLIS的文本条件版本,采用XL大模型规模,是一款强大的3D生成模型。
unsloth
InternVL3-78B-Instruct是一个先进的多模态大语言模型,在多模态感知、推理和语言处理等方面表现出色。该模型通过原生多模态预训练方法,将视觉和语言学习整合到统一训练阶段,在工具使用、GUI代理、工业图像分析、3D视觉感知等多个领域展现出卓越能力。
ImrozeAslamMalik
LGM是一个整合了多视角扩散模型的图像转3D工作流,能够从单张图像生成高质量3D内容。
ImrozeAslam
混元3D 2.0是一个先进的大规模3D合成系统,用于生成高分辨率带纹理的3D资产。
InternVL3-14B-Instruct 是一个先进的多模态大语言模型(MLLM),展示了卓越的多模态感知和推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种任务。
InternVL3-2B-Instruct是先进的多模态大语言模型,相比前代有更出色的多模态感知和推理能力,扩展了工具使用、GUI代理、工业图像分析、3D视觉感知等方面。采用原生多模态预训练方法,将语言和视觉学习整合到单个预训练阶段。
InternVL3-78B是一款先进的多模态大语言模型,具备卓越的多模态感知和推理能力,在工具使用、GUI代理、工业图像分析、3D视觉感知等领域表现出色,整体文本性能也十分优秀。
InternVL3-14B是一个先进的多模态大语言模型,在InternVL 2.5基础上显著提升了多模态感知和推理能力,并拓展了工具使用、GUI代理、工业图像分析、3D视觉感知等领域的应用。
Surn
TRELLIS图像条件版本是一个大型3D生成模型,能够从图像生成3D内容。
BlenderMCP通过MCP协议将Blender与Claude AI连接,实现AI辅助3D建模与场景控制
Tripo MCP Server是一个连接AI助手与Tripo AI的接口项目,支持通过自然语言生成3D资产并导入Blender。
Blender MCP VXAI 是一个强大的集成工具,允许用户通过自然语言控制 Blender,实现 3D 建模、动画和场景的创建与修改。它简化了复杂操作,并支持实时导出到项目中。
FreeCAD MCP是一个通过Claude Desktop控制FreeCAD的插件,支持从2D图纸创建3D模型等多种设计功能。
Tripo MCP Server是一个连接AI助手与Tripo AI的接口工具,支持通过自然语言生成3D资产并导入Blender。
RhinoMCP是一个连接Rhino 3D建模软件与AI代理的工具,通过Model Context Protocol实现双向交互,支持3D对象操作、文档检查和脚本执行。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的服务,支持多视角重建、AI图像生成、远程CUDA处理和工作流审批,最终输出OpenSCAD兼容的模型文件。
Cinema4D MCP Server是一个连接Cinema 4D与Claude的桥梁,通过提示词辅助进行3D场景操作和建模。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的工具,支持多视角重建和远程处理。
一个利用AI生成游戏资源的工具,支持2D和3D资源创建,集成Hugging Face和MCP协议。
MCP 3D打印机服务器是一个连接Claude与多种3D打印机管理系统的协议服务器,支持OctoPrint、Klipper、Duet等多种打印机API,提供文件管理、打印控制、STL模型处理等高级功能。
RhinoMCP是一个连接Rhino3D和Claude AI的集成项目,通过Model Context Protocol实现AI辅助3D建模、分析和设计工作流。
Worker17是一个结合3D监控与MCP协议的工人管理系统,包含Web可视化界面和服务器端,支持通过Claude Desktop进行AI辅助管理。项目起初是个玩笑,后发展为MCP服务器技术探索。
Spline MCP服务器是一个为Spline 3D设计工具API提供接口的中间件服务
VGGT-MPS是基于苹果芯片优化的3D视觉重建工具,使用Metal Performance Shaders加速,能够从单张或多张图像生成深度图、相机姿态和3D点云,支持稀疏注意力实现城市级重建。
Rhino MCP服务器项目,实现Claude AI与Rhino 3D的交互,支持3D对象的创建与操作
一个基于OpenSCAD的MCP服务器,通过AI生成多视角图像并重建为参数化3D模型,支持远程CUDA加速处理。
GH_mcp_server是一个通过LLMs直接与Rhino和Grasshopper交互的工具,支持分析3dm文件、3D建模及自动生成GHPython代码。
MCP-Slicer是一个将3D Slicer与模型客户端(如Claude)通过MCP协议连接的集成工具,支持通过自然语言直接操作3D Slicer进行医学图像处理和场景控制。
Rhino 3D的MCP服务器实现项目,允许AI通过模型上下文协议创建和操作3D对象,包含Python和C#组件,目前处于开发阶段。