騰訊混元團隊推出圖像生成新框架MixGRPO,通過結合SDE和ODE創新採樣策略,將訓練時間縮短50%,其變體MixGRPO-Flash更降低71%。該框架優化MDP過程,限制智能體探索範圍,在保持性能的同時顯著提升效率。研究採用滑動窗口策略聚焦關鍵去噪步驟,並引入高階求解器加速採樣,使圖像生成質量和多樣性均有提升。相關代碼已開源。