昆仑万维发布Matrix-Zero世界模型:国内首创3D场景与可交互视频生成

AIbase基地
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
在人工智能技术持续突破的浪潮中,Krea再度以创新之姿引领行业。4月10日,Krea正式发布全新工具Krea Stage,为3D场景创作和视频生成带来革命性体验。这一工具以其强大的AI能力,让用户能够从单一图片生成可编辑的3D场景,并确保跨媒介内容的一致性,为创作者提供了前所未有的灵活性和效率。以下是AIbase对这一前沿技术的深度解读。从图片到3D场景:一键构建沉浸式世界Krea Stage的核心亮点在于其从2D到3D的智能转换能力。用户只需上传一张图片,Krea Stage即可利用AI算法快速生成一个完整的
还在对着二维照片里的美好场景望眼欲穿?梦想着能身临其境地漫步在那些迷人画面之中?现在,这个愿望有望成为现实!来自CVPR2025的重磅研究——MIDI(Multi-Instance Diffusion for Single Image to3D Scene Generation,多实例扩散单图到3D场景生成)横空出世,它就像一位技艺高超的魔法师,仅凭一张普通的2D图片,就能为你构建出一个栩栩如生的360度3D场景。一图胜千言?现在还能“变”出整个世界!想象一下,你拍摄了一张阳光洒落的咖啡馆一角,照片里有精致的桌椅、香气四溢的咖啡杯,以及窗外婆娑的
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、百度:将在未来几个月推出文心大模型4.5系列并于6月30日起正式开源今日,百度公司宣布将在未来几个月推出文心大模型4.5系列,并计划于6月30日正式向公众开源。尽管删除了这些警告,ChatGPT仍然会对某些不当内容进行审查。
2025年2月14日,昆仑万维集团正式推出Matrix-Zero世界模型,标志着中国在空间智能领域迈出了重要一步。Matrix-Zero包含两款子模型:3D场景生成大模型和可交互视频生成大模型,旨在通过AI技术重塑数字内容创作模式,推动影视制作、游戏开发、具身智能等行业的创新发展。
长期以来,如何仅凭单张图像高效生成高质量、广阔视角的3D场景一直是研究人员面临的挑战。传统方法往往依赖多视角数据,或需要耗时的逐场景优化,并且在背景质量和未见区域的重建上存在不足。现有技术在处理单视图3D场景生成时,常因信息不足而导致遮挡区域的错误或扭曲,背景模糊,以及难以推断未见区域的几何结构。而基于回归的模型虽然可以前馈方式进行新视角合成,但它们在处理复杂场景时面临巨大的内存和计算压力,因此大多局限于物体级别的生成或窄视角场景。为了
有“AI教母”之称的斯坦福大学教授李飞飞及其团队近日发布了一项关于多模态大模型“空间智能”的研究,揭示这些模型在记忆和回忆空间方面已经具备初步能力,并展现出形成局部世界模型的潜力。研究团队开发了用于评估视觉空间智能能力的工具——VSI-Bench,其中包含超过5000个基于288个真实视频的高质量问答对。测试视频涵盖居住空间、专业场所及工业场景,涉及多个地理区域。研究结果显示,尽管多模态模型的总体表现尚低于人类,但在某些任务上已达到或接近人类水平。例如,
李飞飞的初创公司 World Labs 宣布与 Google Cloud 达成协议,选择 Google Cloud 作为其训练 AI 模型的主要计算提供商。这笔交易可能价值数亿美元。World Labs 将利用 Google Cloud 平台上的 GPU 服务器授权,为其大型多模态 AI 模型提供计算服务。该公司的 AI 模型被称为“空间智能”,能够处理、生成和与视频和地理空间数据交互。Google Cloud 表示,World Labs 的 AI 模型有巨大计算需求,需要高性能工具包和丰富的 AI 芯片供应。Google Cloud 的 AI 芯片、张量处理单元 (TPU) 和 Nvidia 的 GPU 将为 World Labs 提供所
最近,来自北京大学和鹏城实验室的研究团队推出了一款名为 HoloDreamer 的新型3D 场景生成框架,旨在通过用户的文本描述生成身临其境、完整的3D 场景。