軌跡可控!阿里推視頻生成模型Tora 寥寥幾筆讓向日葵轉向
阿里巴巴研究團隊推出的Tora,一款基於軌跡的視頻生成系統,以其高保真度、精確的運動控制和多樣化的輸入特點,在AI視頻創作領域取得了重大突破。與傳統U-Net架構不同,Tora採用先進的Diffusion Transformer(DiT)架構,能夠生成長達60秒的高質量視頻,支持不同分辨率和縱橫比,動作流暢自然,彷彿真實世界的完美復刻。其工作流程包括軌跡編碼、運動塊生成和運動融合,通過將文本、視覺和軌跡條件融爲一體,實現對視頻內容的精準控制。Tora的核心優勢在於其獨特的設計理念,它能夠保持高運動保真度,遵循物理世界運動規律,生成的視頻流暢度和保真度遠超其他方法,特別是在長時間、高分辨率視頻生成中,Tora的軌跡精度甚至達到其他方法的3到5倍。官方演示視頻展示了Tora在寧靜場景、自然與人工融合、火星環境和水下世界的應用,凸顯了其生成的視頻的精緻細節和夢幻氛圍。