阿里通义实验室推出FIPO算法,突破传统强化学习在复杂逻辑推理中的瓶颈。该算法通过Future-KL机制,精准识别关键推理步骤,有效解决模型在数学等复杂问题中推理长度停滞的问题,显著提升推理准确率和效率。
阿里通义实验室发布新型算法FIPO,通过引入“Future-KL”机制,有效解决纯强化学习在长文本推理中的“推理长度停滞”问题,提升复杂逻辑对齐训练效果。
阿里通义实验室Qwen Pilot团队推出FIPO算法,通过引入Future-KL机制,精准识别推理链中的关键Token,以优化大模型推理能力,突破传统强化学习方法在区分重要Token上的瓶颈。