360智腦推出Light-IF系列模型 顯著提升複雜指令遵循能力
360智腦團隊宣佈推出全新的Light-IF系列模型,這一創新框架旨在顯著提升大型語言模型(LLM)在複雜指令遵循方面的能力。隨着人工智能技術的不斷進步,儘管LLM在數學、編程等領域已經展現出了卓越的推理能力,但在遵循複雜指令方面仍存在不足。爲了解決這一問題,360智腦團隊提出了以預覽-自檢式推理和信息熵控制爲核心的Light-IF框架。
Light-IF框架通過五個關鍵環節來提升模型性能:難度感知指令生成、Zero-RL強化學習、推理模式提取與過濾、熵保持監督冷啓動、熵自適應正則強化學習。這一框架的提出,旨在破解當前推理模型中存在的“懶惰推理”現象,即模型在思考階段僅複述指令而不主動檢查約束是否被滿足