最好的Self-Play AI工具模型_精选Self-Play资讯

AI资讯

AI学会“无师自通”？AZR让模型左右互搏，越打越聪明！

一项名为Absolute Zero Reasoner（AZR）的创新项目近日引发广泛关注。该项目通过一种全新的“绝对零点”训练范式，让大型语言模型(LLM)能够自主提出问题、编写代码、运行验证，并通过自我博弈(self-play)循环提升编程与数学能力。基于Qwen2.5-7B模型的测试数据显示，AZR在编程能力上提升了5分，数学能力提升了15.2分(满分100分)，展现了其在AI自进化领域的巨大潜力。核心机制:强化自博弈与零数据训练AZR的核心创新在于其强化学习验证推理（RLVR）机制。模型以提出者与解决者的双重角色运作:提出

12.5k 4 小时前

上海AI Lab复刻OpenAI奥数神器，LLaMA版o1开源

近期，开源社区传来好消息:上海AI Lab团队发布了LLaMA版o1项目，旨在复刻OpenAI的奥数解题神器o1。该项目采用了多种先进技术，包括蒙特卡洛树搜索、Self-Play强化学习、PPO以及AlphaGo Zero的双重策略范式，引起了开发者社区的广泛关注。早在OpenAI的o1系列发布之前，上海AI Lab团队就开始探索利用蒙特卡洛树搜索来提升大模型的数学能力。o1发布后，团队进一步升级算法，专注于数学奥赛问题，并将其作为OpenAI草莓项目的开源版本进行开发。为了提升LLaMA模型在数学奥赛问题上的表现，团队采用了

14.6k 前天

模型

Llama 3 Instruct 8B SPPO Iter3

UCLA-AGI

基于Meta-Llama-3-8B-Instruct架构，采用Self-Play Preference Optimization方法在第三次迭代中开发的大语言模型。

智启未来，您的人工智能解决方案智库

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

商务合作网站地图