苹果开源SHARP模型,仅用不到一秒即可将2D照片转为物理比例准确的3D场景,大幅提升3D内容创作效率。
拓竹科技推出“印你”3D手办生成器,基于腾讯混元3D3.0大模型,用户上传图片即可生成高质量可打印3D模型,降低定制门槛,为爱好者和新手提供便捷创作工具。
知名AI专家李飞飞的World Labs推出Marble3D世界模型公测版,支持文本、图像、视频或3D布局直接生成完整可导航的3D虚拟世界。用户可实时交互编辑,并导出高斯溅射、三角网格或视频格式。此次公测标志着该产品从实验室概念转向实用工具。
魔珐科技发布全球首个3D数字人开放平台“魔珐星云”,让AI从文字对话升级为实时生成带表情、手势和身体动作的3D数字人。其核心3D多模态引擎可输入文本后毫秒级输出同步语音与动作,并适配手机、车载等多种终端,实现AI从“说话”到“表演”的进化。
FilmAgent是一个基于LLM的多智能体协作框架,用于虚拟3D空间中的端到端电影自动化制作。
Hunyuan3D 2.0 是腾讯推出的高分辨率 3D 资产生成系统,基于大规模扩散模型。
大规模基础世界模型,生成多样的3D可操作环境
3D网格生成与语言模型的统一
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
Baidu
128
$2
$20
$8
$240
52
Bytedance
$1.2
$3.6
4
GatorBarbarian
TRELLIS Text XL是一个大型3D生成模型,是TRELLIS的文本条件版本,模型大小为XL。该模型基于论文《Structured 3D Latents for Scalable and Versatile 3D Generation》提出,能够根据文本描述生成高质量的3D内容。
shakamone
TRELLIS是一个基于图像条件的大型3D生成模型,采用结构化3D潜变量实现可扩展与多功能的3D生成。
davidleiva4999
TRELLIS的文本条件版本,采用XL大模型规模,是一款强大的3D生成模型。
unsloth
InternVL3-78B-Instruct是一个先进的多模态大语言模型,在多模态感知、推理和语言处理等方面表现出色。该模型通过原生多模态预训练方法,将视觉和语言学习整合到统一训练阶段,在工具使用、GUI代理、工业图像分析、3D视觉感知等多个领域展现出卓越能力。
InternVL3-14B-Instruct 是一个先进的多模态大语言模型(MLLM),展示了卓越的多模态感知和推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种任务。
InternVL3-2B-Instruct是先进的多模态大语言模型,相比前代有更出色的多模态感知和推理能力,扩展了工具使用、GUI代理、工业图像分析、3D视觉感知等方面。采用原生多模态预训练方法,将语言和视觉学习整合到单个预训练阶段。
InternVL3-78B是一款先进的多模态大语言模型,具备卓越的多模态感知和推理能力,在工具使用、GUI代理、工业图像分析、3D视觉感知等领域表现出色,整体文本性能也十分优秀。
InternVL3-14B是一个先进的多模态大语言模型,在InternVL 2.5基础上显著提升了多模态感知和推理能力,并拓展了工具使用、GUI代理、工业图像分析、3D视觉感知等领域的应用。
Surn
TRELLIS图像条件版本是一个大型3D生成模型,能够从图像生成3D内容。
larsquaedvlieg
TRELLIS是一个基于文本条件的大型3D生成模型,采用结构化3D潜变量实现可扩展与多功能的3D内容生成。
TRELLIS是一个大型3D生成模型,通过结构化3D潜变量实现可扩展与多功能的3D内容生成。
TRELLIS文本XL模型是一个大型3D生成模型,能够根据文本描述生成3D内容。
MonsterMMORPG
TRELLIS图像条件版本是一个大型3D生成模型,能够根据输入的2D图像生成对应的3D模型。
jetx
TRELLIS的条件图像版本,一个大型3D生成模型,能够从2D图像生成3D内容。
OpenGVLab
InternVL3-38B是一个先进的多模态大语言模型(MLLM),在多模态感知和推理能力上有显著提升,支持工具使用、GUI代理、工业图像分析、3D视觉感知等领域。
InternVL3-9B是InternVL3系列中的一款多模态大语言模型,具备卓越的多模态感知与推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种应用场景。
InternVL3-8B是OpenGVLab推出的先进多模态大语言模型,具备强大的多模态感知与推理能力,支持工具调用、GUI智能体、工业图像分析、3D视觉感知等新领域。
InternVL3-2B是OpenGVLab推出的先进多模态大语言模型(MLLM),具备卓越的多模态感知和推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等。
InternVL3-78B是OpenGVLab推出的先进多模态大语言模型,展现卓越的综合性能。相比前代InternVL 2.5,具备更强大的多模态感知与推理能力,并将能力拓展至工具使用、GUI代理、工业图像分析、3D视觉感知等新领域。
InternVL3-8B-Instruct 是一个先进的多模态大语言模型(MLLM),展示了卓越的多模态感知和推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种功能。