字節跳動Seed最新強化學習配方POLARIS開源 4B 模型數學推理接近 235B 表現
近日,字節跳動Seed團隊攜手香港大學與復旦大學,共同推出了創新的強化學習訓練方法——POLARIS。該方法通過精心設計的Scaling RL策略,成功將小模型的數學推理能力提升至與超大模型相媲美的水平,爲人工智能領域的小模型優化提供了新路徑。
實驗結果顯示,採用POLARIS訓練的40億參數開源模型Qwen3-4B,在AIME25和AIME24數學測試中分別取得了79.4%和81.2%的高準確率,性能超越部分更大規模的閉源模型。尤爲突出的是,POLARIS-4B模型的輕量化設計,使其能夠在消費級顯卡上輕鬆部署,大大降低了應用門檻。