
論文リンク: https://www.arxiv.org/pdf/2505.05470
プロジェクトリンク: https://github.com/yifan123/flow_grpo
一方で、オンライン強化学習(online RL)は大規模言語モデルの推論能力向上に非常に効果的だった。しかし、これまでRLは主に古い拡散生成モデルや直接的な好み最適化(offline RL)技術に使われてきたが、流動モデルにオンラインRLを適用することで新しい可能性が開けるというアイデアはあまり考えられてこなかった。つまり、凄い鍵があるのに、誰もその扉を開けようとしてこなかったわけだ。Flow-GRPOがその扉を開くために登場したんだ!
---
### RLと流動モデルの相性の難しさ
RLを使って流動モデルを訓練するのは、実はとても難しい課題だ。まず、流動モデルの生成プロセスは予測可能な軌道(ODE: 確定的な常微分方程式)をたどるため、推理時にはランダムサンプリングができない。一方でRLは、まさに逆の性質を持っている。「ランダムに行動して、フィードバックを得て学習する」という、探索の精神が必要なのだ。この両者の性格の違いから、どうやって協力させるべきかが問題になる。
さらに、オンラインRLでは効率的なデータ収集が重要だが、流動モデルは一つのサンプルを生成するのに多くの反復ステップを必要とするため、まるで亀のように遅い。モデルが複雑になるほど、この問題は深刻になり、「雪上滑り」とも言える状況に陥る。だからこそ、RLを画像やビデオ生成のようなタスクに応用するためには、データ収集の効率を上げることが極めて重要な課題だった。

---
### Flow-GRPOで「救世主」が登場!
これらの問題を解決するために、Flow-GRPOが登場した!これはまるで「魔法のツールボックス」のような存在で、二つの驚異的な「魔法戦略」を持っている。
#### 最初の魔法: ODE → SDE 変換
これって、まるで固定軌道しか走れない電車を、どんな道にも対応できる車に改造するようなものだ。Flow-GRPOは、本来確定的な常微分方程式(ODE)を、ランダム性を持たせた確率微分方程式(SDE)に変換する。そして、その変換により、どの時間ステップでも元のモデルの周辺分布を保つことができる。これによってモデルにランダム性を導入し、RLが必要とする探索行動を可能にするんだ。イメージとしては、以前はモデルがただまっすぐな道を歩んでいたのが、今ではいろんな道を探検できるようになった。こんなふうに柔軟に探索できるのは、本当にすごいことだ!
#### 二番目の魔法: ノイズ削減戦略
トレーニング中、Flow-GRPOは「時短マネージャー」のように振る舞い、ノイズ除去のステップを減らしてデータ収集時間を短縮する。しかし、推理時には元の完全なノイズ除去プロセスに戻り、高品質なサンプルを生成する。これって、競技前に速いペースでトレーニングして本番では本気で走るのと同じで、効率と品質のバランスを取るんだ。

---
### Flow-GRPOの実際のパフォーマンス
Flow-GRPOの威力はどれだけ?研究チームはこの手法をテキストから画像(T2I)生成タスクでテストしてみたが、その結果は驚きだった!
#### 組合せ画像生成タスク
GenEval基準を使用して評価すると、このタスクは物体の配置や属性の制御が非常に難しく、まるでレゴを組み立てるような作業だ。Flow-GRPOを使えば、Stable Diffusion3.5Medium (SD3.5-M)モデルの正確度が63%から95%に急上昇。これによりGPT-4oモデルも凌ぐ結果となった!以前のモデルでは、物体の数や色、位置が全くバラバラだったが、Flow-GRPOを使うことでこれらの問題が解消され、まるで魔法がかけられたような正確さで生成されるようになった。
#### ビジュアルテキストレンダリングタスク
SD3.5-MモデルはFlow-GRPOの助けを得て、正確度を59%から92%に引き上げた。以前はテキストが歪んでいたり、不完全だったが、Flow-GRPOを使えばテキストが正確かつ美しく描画されるようになった。まるで画像に最適な説明文が付けられるようになったようで、改善の度合いは非常に大きい。
#### ヒューマンプレファレンスとの適合タスク
Flow-GRPOはヒューマンプレファレンスの評価においても優れた結果を示した。PickScoreを使った報酬モデルで評価すると、モデルが生成する画像がより人間の好みに沿うことが証明された。また、報酬を上げることに伴って「報酬詐欺」(報酬を得るために画像の品質や多様性を犠牲にする現象)がほとんど発生しなかった。他のモデルが画像の質や多様性を犠牲にして報酬を得ようとすることがあるが、Flow-GRPOは「正義の守護者」のような役割を果たし、質と報酬のバランスを完璧に保っている。
---
### Flow-GRPOの分析
研究チームはさらにFlow-GRPOのさまざまな側面を分析した。
#### 報酬詐欺の回避
最初は報酬モデルをいくつか組み合わせてみたが、結果として画像が部分的にぼやけて多様性が減少してしまった。そこでKL制約という方法を取り入れたところ、改善が見られた。適切なKL係数を設定することで、特定のタスクの報酬を最適化しつつ、モデル全体の性能を損なわない「完璧なバランス」を見つけることができた。
#### ノイズ削減戦略の影響
トレーニング時のステップ数を40ステップから10ステップに減らすと、トレーニング速度が4倍以上向上し、報酬スコアにも影響が出なかった。これってまるで長距離運転を短時間で済ませられるようになったみたいで、効率が格段に向上した!
#### ノイズレベルの影響
SDE内のノイズレベルが適切に設定されると、画像の多様性や探索能力が向上し、RLのトレーニングに非常に役立つ。しかし、ノイズレベルが大きすぎると画像の品質が低下する。研究によれば、ノイズレベルを約0.7に設定すると、画像の質を保ちつつ、多様な可能性を探索できる最適な状態が実現できる。
#### 泛化能力
Flow-GRPOは未見のシーンや物体に対しても優れた汎化能力を示した。2-4個の物体でトレーニングしても、5-6個の物体を生成するテストでは問題なく対応できた。まるで優秀な学生のように、一度学べば何でもできる力を備えている。
---
### 未来の展望と挑戦
Flow-GRPOはテキストから画像生成するタスクにおいて非常に優れた結果を示したが、研究者たちはこれに満足していない。彼らの視線はすでにさらに広い分野へ向けられている——ビデオ生成だ。しかし、これには新たな課題が伴う。
#### 最初の課題: 報酬設計
ビデオ生成では単純な報酬モデルでは足りない。より複雑で効果的な報酬モデルを作らないと、生成されたビデオがリアルでスムーズでない。映画を評価するのと同じように、単に画質だけでなく、ストーリー、音響効果など、多くの要素を考慮する必要がある。
#### 二番目の課題: 複数の報酬のバランス
ビデオ生成は複数の目標を最適化する必要がある。例えばリアルさ、スムーズさ、連続性などだ。これらは「それぞれの考えを持つ子供たち」のように、互いに意見が合わず調整が難しい。研究者はこれらを「仲良く共存させる」方法を見つけなければいけない。
#### 三番目の課題: スケーラビリティ
ビデオ生成は画像生成よりも多くのリソースを必要とする。Flow-GRPOをビデオ生成に応用するためには、効率的なデータ収集とトレーニング方法を見つけなければならない。リソースの「細い管」では、Flow-GRPOの「大きな胃袋」を満たすことはできない。
しかし、これらの挑戦はFlow-GRPOの進展を妨げるものではない。研究者の努力によって、Flow-GRPOは画像生成だけでなく、ビデオ生成や他の多くの分野でさらなる驚きを与えてくれるだろう。将来的には、私たちが見る映画やゲームの画像もFlow-GRPOによって生成されるかもしれない。一緒に楽しみに待ちましょう!
論文リンク: https://www.arxiv.org/pdf/2505.05470
プロジェクトリンク: https://github.com/yifan123/flow_grpo