バイチューテックのSeedが最新の強化学習アルゴリズムPOLARISをオープンソース化 4Bモデルの数学推論能力が235Bと同等に
最近、バイチューテックのSeedチームは香港大学および復旦大学と協力して、革新的な強化学習トレーニング方法であるPOLARISを発表しました。この方法は丁寧に設計されたScaling RL戦略により、小規模モデルの数学推論能力を超大規模モデルと同等の水準まで向上させることに成功し、人工知能分野における小規模モデルの最適化に新たな道を開きました。実験結果によると、POLARISでトレーニングされた40億パラメータのオープンソースモデルQwen3-4Bは、AIME25およびAIME24の数学テストにおいてそれぞれ