tencent
SRPO是一種針對擴散模型的人類偏好對齊方法,通過Direct-Align技術和語義相對偏好優化,顯著提升了FLUX.1-dev模型的真實感和美學質量,解決了多步去噪計算成本高和依賴離線獎勵微調的問題。