谷歌 DeepMind 推新框架 InfAlign:提升語言模型推理對齊能力
生成式語言模型在從訓練到實際應用的過程中面臨着許多挑戰。其中一個主要問題是如何在推理階段使模型達到最佳表現。目前的對策,如通過人類反饋的強化學習(RLHF),主要集中在提高模型的勝率上,但往往忽視了推理時的解碼策略,例如 Best-of-N 採樣和控制解碼。這種訓練目標與實際使用之間的差距,可能導致效率低下,影響輸出的質量和可靠性。爲了解決這些問題,谷歌 DeepMind 和谷歌研究團隊開發了 InfAlign,這是一個旨在與推理策略相結合的機器學習框架。InfAlign 將推理時的方法