tencent
SRPO是一种针对扩散模型的人类偏好对齐方法,通过Direct-Align技术和语义相对偏好优化,显著提升了FLUX.1-dev模型的真实感和美学质量,解决了多步去噪计算成本高和依赖离线奖励微调的问题。