2025年4月21日、Sand AIはオープンソースの動画生成モデルMAGI-1を発表しました。革新的な自己回帰拡散アーキテクチャと卓越した性能により、生成AI分野の中心に躍り出ました。

このモデルはApache 2.0ライセンスを採用しており、コード、ウェイト、推論ツールはGitHubとHugging Faceで公開されています。世界中の開発者に強力な創作ツールを提供します。

MAGI-1は拡散トランスフォーマーアーキテクチャに基づいており、ブロック因果関係注意機構、並列注意機構ブロック、Sandwich正規化などの技術革新を取り入れています。ブロック単位(ブロックあたり24フレーム)での生成により、効率的な動画生成を実現しています。独自のパイプライン設計により並列処理が可能で、最大4つのブロックを同時に生成でき、効率の大幅な向上を実現しています。

このモデルは高速蒸留技術を用いており、柔軟な推論予算に対応できます。物理的挙動予測と時間的一貫性において優れた性能を発揮し、長編物語や複雑な動的シーンに適しています。「無限動画拡張」機能により、動画コンテンツをシームレスに延長でき、「秒単位の時間軸制御」と組み合わせることで、ブロック単位のプロンプトによるシーン切り替えや精密な編集が可能になり、映画制作やストーリーテリングなどのニーズに対応できます。

画像から動画への変換タスクにおいて、高精細な出力を実現し、ネイティブ解像度は1440x2568pxに達します。動作は滑らかで、細部までリアルです。オープンソースモデルとして、MAGI-1はDockerによる展開をサポートしています。24Bパラメータのバージョンには8枚のH100 GPUが必要ですが、将来の4.5Bパラメータのバージョンは単一のRTX 4090に対応し、使用ハードルの低下が期待されます。

コミュニティからのフィードバックでは、生成品質と指示遵守能力が高く評価されており、Kling 1.6とWan 2.1を上回るスコアを獲得しています。しかし、非現実的なスタイルのコンテンツについては、改善の余地があります。

競争の激しい動画生成分野において、MAGI-1はオープンソースと自己回帰アーキテクチャによって際立っています。Sand AIはより軽量なバージョンのリリースとハードウェア最適化の深化を計画しており、将来はリアルタイム生成や仮想現実などのアプリケーションを推進する可能性があります。MAGI-1の発表は技術的なブレークスルーであるだけでなく、オープンソースエコシステムへの貢献であり、動画制作の在り方を塗り替える可能性を秘めています。

詳細はsand.aiまたはHugging Face(huggingface.co/sand-ai/MAGI-1)をご覧ください。