AI學會“無師自通”?AZR讓模型左右互搏,越打越聰明!
一項名爲Absolute Zero Reasoner(AZR)的創新項目近日引發廣泛關注。該項目通過一種全新的“絕對零點”訓練範式,讓大型語言模型(LLM)能夠自主提出問題、編寫代碼、運行驗證,並通過自我博弈(self-play)循環提升編程與數學能力。基於Qwen2.5-7B模型的測試數據顯示,AZR在編程能力上提升了5分,數學能力提升了15.2分(滿分100分),展現了其在AI自進化領域的巨大潛力。核心機制:強化自博弈與零數據訓練AZR的核心創新在於其強化學習驗證推理(RLVR)機制。模型以提出者與解決者的雙重角色運作:提出