tencent
SRPOは拡散モデルに対する人間の嗜好アライメント手法で、Direct-Align技術と意味的相対嗜好最適化により、FLUX.1-devモデルのリアリティと美学品質を大幅に向上させ、多段階ノイズ除去の計算コストが高い問題とオフライン報酬微調整に依存する問題を解決します。