拡散モデルもゲームで活躍?DIAMONDがAtari 100kベンチマークで新たなSOTAを達成
近年、強化学習は多くの成功を収めてきましたが、サンプル効率の低さが実世界への応用を妨げています。ワールドモデルは環境生成モデルとして、この問題解決への期待を高めています。シミュレーション環境として機能し、より高いサンプル効率で強化学習エージェントを訓練できます。現在、ほとんどのワールドモデルは離散潜在変数系列を用いて環境ダイナミクスをシミュレートしています。しかし、このコンパクトな離散表現への圧縮は、強化学習に不可欠な視覚的詳細を見落とす可能性があります。一方、拡散モデルは画像生成分野で主流となっています。