腾讯混元团队推出图像生成新框架MixGRPO,通过结合SDE和ODE创新采样策略,将训练时间缩短50%,其变体MixGRPO-Flash更降低71%。该框架优化MDP过程,限制智能体探索范围,在保持性能的同时显著提升效率。研究采用滑动窗口策略聚焦关键去噪步骤,并引入高阶求解器加速采样,使图像生成质量和多样性均有提升。相关代码已开源。