数百万ドルもの費用がかかるビデオ生成モデルにためらっていませんか?AIによるビデオ制作は巨大企業だけのものだと感じていますか?今日、オープンソースコミュニティがその考えを覆します。「No!」。Open-Sora2.0という新しいオープンソースモデルが登場し、ビデオ生成の「高額費用」というルールを完全に変えました。信じられないことに、商業レベルの性能を持つ110億パラメーターの大規模モデルが、わずか20万ドル(224台のGPU)でトレーニングされました!数百万ドルもの費用がかかるクローズドソースモデルと比較すると、Open-Sora2.0のコストパフォーマンスは圧倒的に優れています!
Open-Sora2.0のリリースは、ビデオ生成分野における「平民革命」と言えるでしょう。数百万ドル規模のモデルに匹敵する、あるいはそれ以上の強力な機能を持ちながら、モデルの重み、推論コード、トレーニングプロセスをすべて公開するという前例のないオープンな姿勢で、高品質なビデオ制作の「パンドラの箱」を開け放ちました。かつて手の届かなかったAIビデオ生成技術が、今や誰もが利用できるようになり、誰もがこのエキサイティングな創作の波に参加する機会を得ました!
GitHub オープンソースリポジトリ: https://github.com/hpcaitech/Open-Sora
1. 強力な性能:見て分かる、データが語る
1.1 驚きの効果!Open-Sora2.0ビデオデモをいち早くご覧ください
百聞は一見に如かず!Open-Sora2.0の生成効果がどれほど素晴らしいか?デモビデオをご覧いただき、「検証」してください:
神業的なカメラワーク!正確な動作:人物の繊細な動きから壮大なシーンの演出まで、Open-Sora2.0はプロの監督のように正確に動きの大きさを制御し、画力の表現力を最大限に引き出します!
最高の画質!滑らかな動き:720pの高解像度、24FPSの安定したフレームレートで、Open-Sora2.0で生成されたビデオは、鮮明さ、滑らかさともに完璧で、市場に出回っている同種の製品をはるかに凌駕し、視聴体験は「劇的に向上」します!
変化に富むシーン!あらゆる能力を発揮:田園風景、都市の夜景、SF宇宙…様々な複雑なシーンをOpen-Sora2.0は簡単に生成でき、細部まで豊かな描写で、カメラワークも自然で滑らかです。「AI界のレオナルド・ダ・ヴィンチ」と言えるでしょう!
1.2 パラメーター規模「小が大を制す」、性能はクローズドソースの巨人に匹敵
Open-Sora2.0は「飾り」ではなく、真の「技術力」を持っています。わずか110億のパラメーター規模でありながら、驚くべき能力を発揮し、権威ある評価プラットフォームVBenchとユーザーによる主観的評価において、HunyuanVideoや30B Step-Videoなどのクローズドソースの巨人に匹敵する優れた成果を収め、「小が大を制す」の典型と言えます!
ユーザーが判断!好みに基づく評価で群を抜く:視覚効果、テキストの一貫性、動作表現の3つの側面において、Open-Sora2.0は少なくとも2つの指標でオープンソースSOTAモデルであるHunyuanVideoを上回り、Runway Gen-3Alphaなどの商業モデルをも凌駕し、「低コストでも高品質」であることを実証しました!
VBenchランキング「実力証明」、性能は最高レベルに迫る:ビデオ生成分野で最も権威のあるVBenchランキングにおいて、Open-Sora2.0の進歩速度は「ロケット上昇」と言えるでしょう。1.2バージョンから2.0バージョンまで、OpenAI Soraクローズドソースモデルとの性能差は4.52%から0.69%に縮小し、ほぼ無視できるレベルになりました!さらに素晴らしいことに、Open-Sora2.0はVBench評価で騰訊HunyuanVideoを上回り、「低投入、高収益」という大きな利点を改めて証明し、オープンソースビデオ生成技術の新たなマイルストーンを打ち立てました!
2. 低コストで実現:オープンソースの裏側にある技術
Open-Soraはオープンソース化されて以来、その効率的で高品質なビデオ生成能力により、オープンソースコミュニティの「人気者」となりました。しかし、同時に課題もありました。高品質なビデオ生成の「高コスト」という呪縛を打ち破り、より多くの人が参加できるようにするにはどうすれば良いか?Open-Soraチームは困難に挑戦し、一連の技術革新を通じて、モデルのトレーニングコストを5~10倍削減することに成功しました!数百万ドルものトレーニング費用がかかる市場において、Open-Sora2.0はわずか20万ドルで実現し、「オープンソース界のコストパフォーマンスの王者」と言えるでしょう!
Open-Soraはモデルコードと重みをオープンソース化しただけでなく、全トレーニングコードも寛大に公開し、活気のあるオープンソースエコシステムを構築しました。わずか半年で、Open-Soraの学術論文の引用数は100回近くに達し、世界的なオープンソースの影響力ランキングで上位にランクインし、すべてのオープンソースI2V/T2Vビデオ生成プロジェクトを上回り、名実ともに「オープンソースビデオ生成のリーダー」となりました。
2.1 モデルアーキテクチャ:伝統と革新の融合
Open-Sora2.0はモデルアーキテクチャにおいて、1.2バージョンの優れた点を継承しながら、大胆な革新も行いました。3D自己符号化器とFlow Matchingトレーニングフレームワークを継承し、マルチバケットトレーニングメカニズムを維持することで、モデルが様々な長さや解像度のビデオを「柔軟に処理」できるようにしました。同時に、いくつかの「革新的技術」を取り入れ、ビデオ生成能力をさらに向上させました:
3D全注意機構の追加:ビデオの時間と空間情報をより正確に捉え、生成されたビデオの映像をより滑らかに、細部をより豊かにします。
MMDiTアーキテクチャ「強力な支援」:テキスト指示とビデオコンテンツ間の関連性をより正確に理解し、テキストからビデオへの生成における意味表現をより正確で的確なものにします。
モデル規模を110億に拡大:より大きなモデル容量は、より強力な学習能力と生成能力を意味し、ビデオの品質は自然と向上します。
FLUXモデルを「ベース」に、トレーニング効率を「向上」:オープンソースの画像からビデオ生成モデルであるFLUXの成功事例を参考に、モデルの初期化を行い、トレーニング時間とコストを大幅に削減し、モデルトレーニングの効率を「劇的に向上」させました。
2.2 高効率トレーニングの秘訣:オープンソース化された全プロセスでコストを「大幅削減」
トレーニングコストを「最低限」に抑えるために、Open-Sora2.0はデータ、計算能力、戦略のあらゆる面で十分な準備を行い、「オープンソース界の節約の達人」と言えるでしょう:
データの「厳選」、品質は「万里に一つ」:Open-Soraチームは「ゴミを入れればゴミが出てくる」という原則をよく理解しており、トレーニングデータに対して「徹底的な」選別を行い、各データが「高品質」であることを保証し、モデルトレーニングの効率を根本から向上させました。多段階、多層的なデータ選別メカニズムと様々な「革新的技術」によるフィルターを組み合わせることで、ビデオデータの品質をさらに向上させ、モデルトレーニングに最高の「燃料」を提供しました。
計算能力の「節約」、低解像度トレーニングを「先陣」に:高解像度ビデオトレーニングのコストは低解像度ビデオよりもはるかに高く、両者の計算能力の差は最大40倍にもなります!Open-Sora2.0は「正面衝突」を巧みに回避し、低解像度トレーニングを優先することで、ビデオ内の動きに関する情報を効率的に学習し、コストを大幅に削減しながら、モデルがビデオ生成の「コアスキル」を習得できるようにしました。「効率的」と言えるでしょう。
戦略の「柔軟性」、画像からビデオ生成への「迂回策」:Open-Sora2.0は最初から高解像度ビデオトレーニングに「固執」するのではなく、より賢い「迂回策」を採用しました。画像からビデオ生成モデルのトレーニングを優先し、モデルの収束速度を向上させることです。実際、画像からビデオ生成モデルは解像度を向上させる際に収束速度が速く、トレーニングコストが低いため、「一石二鳥」と言えるでしょう。推論段階では、Open-Sora2.0は「テキストから画像、そしてビデオ生成」(T2I2V)モードもサポートしており、ユーザーはテキストから高品質な画像を生成し、その画像をビデオに変換することで、より精細な視覚効果を得ることができます。「様々な方法がある」ということです。
並列トレーニングの「全開」、計算能力の利用率を「最大限に」:Open-Sora2.0は「一筋縄ではいかない、一本の木では森は作れない」という原則をよく理解しており、効率的な並列トレーニング方式を採用し、ColossalAIとシステムレベルの最適化技術を「徹底的に」活用することで、計算資源の利用率を最大限に高め、GPUクラスタを「フル稼働」させ、より効率的なビデオ生成トレーニングを実現しました。一連の「革新的技術」により、Open-Sora2.0のトレーニング効率は「ロケット上昇」し、コストが大幅に削減されました:
シーケンシャル並列処理 + ZeroDP:大規模モデルの分散計算効率を最適化し、「集団の力」を実現します。
細粒度勾配チェックポイント:メモリ使用量を削減しながら計算効率を維持し、「節約」を実現します。
トレーニング自動復旧メカニズム:99%以上の有効トレーニング時間を確保し、リソースの無駄を減らし、「安定性」を実現します。
効率的なデータ読み込み + メモリ管理:I/Oを最適化し、トレーニングのブロックを防ぎ、トレーニングプロセスを高速化し、「高速化」を実現します。
非同期モデル保存:モデルの保存がトレーニングに与える影響を減らし、GPUの利用率を高め、「マルチタスク」を実現します。
演算子最適化:重要な計算モジュールを深く最適化し、トレーニングプロセスを高速化し、「高速化と効率化」を実現します。
これらの最適化策の「組み合わせ」により、Open-Sora2.0は高性能と低コストの完璧なバランスを実現し、高品質なビデオ生成モデルのトレーニングのハードルを大幅に下げ、より多くの人がこの技術の祭典に参加できるようになりました。
2.3 高圧縮比AE「強力な支援」、推論速度の「さらなる向上」
トレーニングコストを削減するだけでは不十分で、推論速度も向上させる必要があります!Open-Sora2.0は将来を見据え、高圧縮比ビデオ自己符号化器(AE)の応用を探求し、推論コストをさらに削減し、ビデオ生成速度を向上させました。現在の主流のビデオモデルは4×8×8自己符号化器を採用しており、768px、5秒のビデオを生成するのに、単一カードで約30分かかるため、推論効率の向上が急務です。Open-Sora2.0は高圧縮比(4×32×32)のビデオ自己符号化器をトレーニングし、推論時間を単一カードで3分以内へと短縮し、速度を10倍向上させました!まさに「光速」生成です!
高圧縮比符号化器は優れていますが、トレーニングの難度も非常に高いです。Open-Soraチームは困難に挑戦し、ビデオのアップサンプリングとダウンスプリングモジュールに残差接続を導入することで、SOTAビデオ圧縮モデルに匹敵する、そしてより高い圧縮比を持つVAEの再構築品質を成功裏にトレーニングし、効率的な推論の基礎を築きました。高圧縮比自己符号化器のトレーニングデータの需要が大きく、収束が難しいという問題を解決するために、Open-Soraは蒸留ベースの最適化戦略を提案し、既にトレーニングされた高品質モデルを使用して初期化することで、データと時間の需要を削減しました。同時に、画像からビデオ生成タスクに重点的にトレーニングを行い、画像の特徴をビデオ生成に利用することで、高圧縮自己符号化器の収束を加速し、最終的に推論速度と生成品質の「両立」を実現しました。
Open-Soraチームは、高圧縮比ビデオ自己符号化器が将来のビデオ生成技術開発の重要な方向性になると確信しています。現在の予備実験の結果は、驚くべき推論速度向上効果を示しており、彼らはこれを通じてより多くのコミュニティの力を集め、高圧縮比ビデオ自己符号化器の可能性を共同で探求し、効率的で低コストなビデオ生成技術のさらなる発展を促進し、AIビデオ制作を真に「一般の人々のもの」にすることを目指しています。
3. オープンソースへの集結!AIビデオ革命の新たな旅へ
本日、Open-Sora2.0が正式にオープンソース化されました!世界中の開発者、研究機関、AI愛好家の皆様をOpen-Soraコミュニティへの参加を心よりお待ちしております。共に構築し、AIビデオ革命の波を前進させ、ビデオ制作の未来をよりオープンで、包括的で、素晴らしいものにしていきましょう!
GitHub オープンソースリポジトリ: https://github.com/hpcaitech/Open-Sora
技術レポート:
https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf