AI学会“无师自通”?AZR让模型左右互搏,越打越聪明!
一项名为Absolute Zero Reasoner(AZR)的创新项目近日引发广泛关注。该项目通过一种全新的“绝对零点”训练范式,让大型语言模型(LLM)能够自主提出问题、编写代码、运行验证,并通过自我博弈(self-play)循环提升编程与数学能力。基于Qwen2.5-7B模型的测试数据显示,AZR在编程能力上提升了5分,数学能力提升了15.2分(满分100分),展现了其在AI自进化领域的巨大潜力。核心机制:强化自博弈与零数据训练AZR的核心创新在于其强化学习验证推理(RLVR)机制。模型以提出者与解决者的双重角色运作:提出