轨迹可控!阿里推视频生成模型Tora 寥寥几笔让向日葵转向
阿里巴巴研究团队推出的Tora,一款基于轨迹的视频生成系统,以其高保真度、精确的运动控制和多样化的输入特点,在AI视频创作领域取得了重大突破。与传统U-Net架构不同,Tora采用先进的Diffusion Transformer(DiT)架构,能够生成长达60秒的高质量视频,支持不同分辨率和纵横比,动作流畅自然,仿佛真实世界的完美复刻。其工作流程包括轨迹编码、运动块生成和运动融合,通过将文本、视觉和轨迹条件融为一体,实现对视频内容的精准控制。Tora的核心优势在于其独特的设计理念,它能够保持高运动保真度,遵循物理世界运动规律,生成的视频流畅度和保真度远超其他方法,特别是在长时间、高分辨率视频生成中,Tora的轨迹精度甚至达到其他方法的3到5倍。官方演示视频展示了Tora在宁静场景、自然与人工融合、火星环境和水下世界的应用,凸显了其生成的视频的精致细节和梦幻氛围。