腾讯开源混元世界模型1.1,支持多视图和视频输入,实现单卡部署并提升生成速度。该模型能在数秒内从视频或图片生成专业3D场景,推动3D重建技术普及,让普通用户轻松使用专业工具。
腾讯开源HunyuanWorld-Voyager模型,具备原生3D重建能力。该视频扩散框架基于单张输入图像生成具有世界一致性的3D点云,为开发者提供创新AI产品应用。
腾讯AI团队Hunyuan最新开源3D世界模型HunyuanWorld-Voyager登顶WorldScore榜单,凭借卓越的相机控制、内容对齐和3D一致性表现超越竞品。该模型具备原生3D重建能力,支持单张图像生成点云,为3D重建、深度估计等应用带来突破性进展。
腾讯发布HunyuanWorld-Voyager视频扩散框架,通过单张图像生成3D点云,支持自定义相机路径实现沉浸式探索。作为全球首个原生3D重建超远距离世界模型,它无需后处理即可生成精确深度信息和RGB视频,重新定义AI驱动的VR、游戏和仿真空间智能。
高保真可动画 3D 人类重建模型,快速生成动画角色。
高分辨率、高精度的深度估计方法
从单张图片重建逼真的3D人体模型
4D场景创建工具,使用多视图视频扩散模型
facebook
MapAnything是一个端到端训练的Transformer模型,能够以多种模态作为输入,直接回归场景的分解度量3D几何结构。该模型支持超过12种不同的3D重建任务,包括多图像SfM、多视图立体视觉、单目度量深度估计等。
yslan
STream3R是一种基于因果Transformer的可扩展序列3D重建模型,将点云图预测重新定义为仅解码器的Transformer问题。它引入流式处理框架,利用因果注意力高效处理图像序列,能够很好地泛化到各种具有挑战性的场景,包括传统方法经常失效的动态场景。
kvuong2711
AerialMegaDepth是一个专注于空地重建与视角合成的深度学习模型,能够从航拍图像中重建3D场景并生成新视角。
3DAIGC
LHM是一个前馈式模型,可在数秒内从单张图像重建可动画的3D人体。
LHM是一个前馈模型,可在数秒内从单张图像重建可动画的3D人体。通过在大规模视频数据集上使用图像重建损失进行训练,我们的模型对多样化的现实场景展现出强大的泛化能力。
zhang3z
dust3r 是一个用于从图像生成3D模型的深度学习模型,支持多视图3D重建。
stanfordmimi
由六种大规模、可泛化的2D/3D变分自编码器组成的医学影像处理模型家族,能够将医学图像编码为压缩的潜在表征,并实现高保真度的图像重建。
Kai422kx
DAS3R是一种用于静态场景重建的3D模型,采用动态感知高斯泼溅技术,能够从图像生成高质量的3D重建效果。
stabilityai
SPAR3D是基于SF3D的大型重建模型,可在1秒内从单张图像生成带纹理UV展开的3D网格资产,具备实时编辑能力。
Junyi42
MonST3R是一种在运动存在下估算几何形状的简单方法,能够从图像中重建3D场景。
VFusion3D是一个通过少量3D数据与大量合成多视角数据训练的大型前馈式3D生成模型,是首个研究可扩展3D生成/重建模型的工作。
jadechoghari
VFusion3D是一个大型前馈式3D生成模型,通过少量3D数据和大量合成多视角数据进行训练,探索可扩展的3D生成/重建模型。
naver
DUSt3R是一个用于从图像轻松实现几何3D视觉的模型,能够从单张或多张图像重建3D场景。
TripoSR是由Stability AI与Tripo AI联合开发的快速前馈式3D生成模型,专注于从单张图像快速重建3D模型。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的服务,支持多视角重建、AI图像生成、远程CUDA处理和工作流审批,最终输出OpenSCAD兼容的模型文件。
一个基于OpenSCAD的MCP服务器,通过AI生成多视角图像并重建为参数化3D模型,支持远程CUDA加速处理。
VGGT-MPS是基于苹果芯片优化的3D视觉重建工具,使用Metal Performance Shaders加速,能够从单张或多张图像生成深度图、相机姿态和3D点云,支持稀疏注意力实现城市级重建。