高画質、高視覚効果!智譜がCogVideoX-5Bビデオ生成モデルをオープンソース化
中国産のオープンソースビデオ生成モデルCogVideoX-5BがModelScopeコミュニティで正式にオープンソース化されました。ビデオ生成の質と視覚効果が大幅に向上しています。大規模DiTモデルをベースとし、3D因果変分オートエンコーダー、エキスパートTransformer技術を採用し、3D-RoPE位置エンコーディングと3D全アテンション機構により時空間の統合モデリングを実現しています。漸進的学習技術の活用により、顕著な動き、一貫性があり高品質な長時間のビデオ生成が可能になりました。