最近、テクノロジー大手マイクロソフトは注目すべき研究プロジェクト、WHAMM(World and Human Action MaskGIT Model)を公開しました。これは革新的なAIモデルで、AIモデル内部で完全に動作する古典的ゲーム「クェークII」を生成し、プレイヤーが操作可能なリアルタイム版を提示します。この研究はマイクロソフトのCo pil ot Labsに属し、インタラクティブメディアにおける生成AIの可能性と限界を探求することを目的としています。
従来を覆す:AIモデルが直接プレイ可能なゲームを生成
従来のゲームAIは、ゲームキャラクターの制御やゲームコンテンツの断片的な生成に重点を置いていましたが、WHAMMの独自性は、ゼロからゲーム環境全体とダイナミックなプロセスを生成し、プレイヤーのリアルタイム操作に対応できる点にあります。つまり、プレイヤーはAIモデルが「想像」した「クェークII」の世界と直接インタラクトできます。移動、ジャンプ、射撃、物体の配置などが可能です。このAI生成のデモ版では、環境への変更を保存し、隠されたエリアを探検することもできます。
WHAMMは、ゲーム開発向けに生成AIツールを提供することに特化したマイクロソフトの「Muse」モデルファミリーの一員です。以前のバージョンであるWHAM-1.6Bはゲーム「Bleeding Edge」のトレーニングに使用されていましたが、性能は毎秒約1フレームでした。WHAMMは性能において著しい飛躍を遂げ、毎秒10フレームを超える画像を生成でき、モデル内部でのリアルタイムインタラクションを十分にサポートできます。
技術的ブレークスルー:少ないデータで、より高速な生成
WHAMMの成功は、2つの重要な技術革新によるものです。大幅に削減されたトレーニングデータと、全く新しい技術戦略です。WHAM-1.6Bは7年分のゲームデータを使用してトレーニングされたのに対し、WHAMMは1週間分の「クェークII」のシングルレベルから収集されたデータのみを使用しています。専門のテスターによって記録されたこれらのデータは、質が高く、目的が明確なゲーム行動の例を提供し、モデルがより効率的に学習することを可能にしました。
技術戦略においては、WHAMMはWHAM-1.6Bが採用していた自己回帰法(画像トークンを逐次生成)を放棄し、MaskGIT戦略を採用しています。この方法により、モデルは複数のイテレーションで全ての画像トークンを並列に生成できます。この変更により生成速度が大幅に向上し、出力解像度も300×180ピクセルから640×360ピクセルに向上しました。
WHAMMシステムのワークフローは3つの段階に分かれています。まず、ViT-VQGANを使用して画像をトークンに変換します。次に、約5億パラメータを持つ「バックボーン」トランスフォーマーがコンテキストに基づいて次に何が起こるかを予測します。最後に、約2.5億パラメータを持つより小さな「リファインメント」モジュールが、複数のイテレーションを通じて予測された画像トークンを改良します。新しいフレームを生成するために、モデルは前の9つの画像-アクションペアをコンテキストとして使用します。
依然として課題あり:AIゲーム開発の未来の方向性を探る
WHAMMは素晴らしい可能性を示していますが、オリジナルの「クェークII」を完璧に再現しているわけではありません。トレーニングデータの制限により、生成された環境は近似的なものであり、いくつかの技術的な欠点があります。例えば、敵キャラクターはぼやけて見え、戦闘はリアルさがなく、体力ゲージも信頼性がありません。さらに、オブジェクトが画面外に0.9秒(モデルのコンテキストウィンドウの制限)以上留まると消えてしまいます。プレイ可能なエリアはレベルの一部分に限定されており、そのエリアの終点に達するとシミュレーションは停止します。また、入力遅延はまだ高く、プレイヤーの操作とシステムの応答の間に顕著な遅延があります。
マイクロソフトはWHAMMを、将来のAI支援ゲーム開発のための実験的な基盤と考えています。これは、生成AIをゲーム開発に適用する方法を探求する、現在登場している多くの新しいツールの1つでもあります。同様の試みとしては、GameGen-O(オープンワールドシミュレーションの生成に特化)、GoogleとDeepmindのGameNGenとDIAMOND(「DOOM」や「カウンターストライク」などのゲームのシミュレーションに使用)などがあります。これらのモデルは顕著な進歩を遂げていますが、低解像度の出力、メモリとコンテキスト認識の制限などの技術的な課題に依然として直面しています。
ゲーム業界がAIを受け入れる:コスト削減と効率化の可能性
ゲーム業界は、コード、デザイン、ストーリーテリング、マルチメディアなど複数の分野を融合し、開発サイクルが予算と時間の制約を受けやすいことから、生成AIを特に受け入れやすいです。この創造的な複雑さとリソースの圧力の組み合わせにより、構造化されたタスクを部分的に自動化できるツールを特に受け入れやすくなっています。
まとめ
マイクロソフトが発表したWHAMMモデルは、AIモデル内部でプレイ可能な「クェークII」のデモをリアルタイムで生成することにより、インタラクティブエンターテイメントにおける生成AIの巨大な可能性を示しました。現在、いくつかの制限がありますが、WHAMMの技術的ブレークスルー、例えばより効率的なデータ学習と並列的な画像生成戦略は、AI駆動のゲーム開発の未来に新たな道を切り開いています。