ニューヨーク大学、マサチューセッツ工科大学、そしてGoogleの研究チームは最近、拡散モデルの推論時間におけるボトルネック問題を解決することを目指した革新的なフレームワークを発表しました。この画期的な研究は、単純にノイズ除去ステップを増やす従来の方法を超え、生成モデルのパフォーマンス向上への新たな道を切り開きます。
このフレームワークは主に2つの側面から展開されています。1つは、検証器からのフィードバックを利用すること、もう1つは、より最適なノイズ候補を発見するためのアルゴリズムを実装することです。研究チームは、256×256解像度の事前学習済みSiT-XLモデルをベースに、250ステップのノイズ除去ステップを維持しながら、検索操作専用の追加計算リソースを革新的に導入しました。
検証システムに関しては、Inception Score(IS)とFréchet Inception Distance(FID)という2つのOracle Verifierを採用しました。ISは、事前学習済みのInceptionV3モデルに基づいて、分類確率が最も高いものを選択し、FIDは、事前に計算されたImageNet Inceptionの特徴統計との差異を最小化することに重点を置いています。
実験結果によると、このフレームワークは複数のベンチマークテストで優れたパフォーマンスを示しました。DrawBenchテストでは、LLM Graderによる評価で、検索検証方法がサンプルの品質を継続的に向上させることが確認されました。特にImageRewardとVerifier Ensembleは、正確な評価能力と人間の好みとの高い一致性のおかげで、あらゆる指標で顕著な進歩を遂げました。
この研究は、検索ベースの計算拡張方法の有効性を確認しただけでなく、さまざまな検証器に固有のバイアスも明らかにし、より専門的な視覚生成タスク検証システムの開発に向けた指針を示しました。この発見は、AI生成モデルの全体的なパフォーマンス向上に重要な意味を持ちます。