阿里通義實驗室推出FIPO算法,突破傳統強化學習在複雜邏輯推理中的瓶頸。該算法通過Future-KL機制,精準識別關鍵推理步驟,有效解決模型在數學等複雜問題中推理長度停滯的問題,顯著提升推理準確率和效率。
阿里通義實驗室發佈新型算法FIPO,通過引入“Future-KL”機制,有效解決純強化學習在長文本推理中的“推理長度停滯”問題,提升複雜邏輯對齊訓練效果。
阿里通義實驗室Qwen Pilot團隊推出FIPO算法,通過引入Future-KL機制,精準識別推理鏈中的關鍵Token,以優化大模型推理能力,突破傳統強化學習方法在區分重要Token上的瓶頸。