アリババグループのQwenチームは、新しい好みモデリングモデルシリーズ「WorldPM」を発表しました。このシリーズには、「WorldPM-72B」とその派生版「WorldPM-72B-HelpSteer2」「WorldPM-72B-RLHFLow」「WorldPM-72B-UltraFeedback」が含まれています。この発表は、世界的なAI開発者コミュニティの注目を集め、好みモデリング分野における重要な進展と見られています。

image.png

WorldPM:好みモデリングの新たな探求

WorldPM(World Preference Modeling)は、Qwenチームが好みモデリング分野で打ち立てた最新の成果です。公式の説明によると、このモデルは1500万件もの好みデータを用いて超大規模にトレーニングされ、好みモデリングが言語モデリングと同様にスケーリング法則(scaling laws)に従うことを実証しました。この発見により、データやモデル規模が拡大するにつれて、好みモデルが統一された好み表現を学習し、監督学習でのパフォーマンスが著しく向上することが示されています。

WorldPM-72Bシリーズは72億パラメータ規模で構築されており、他のモデルの出力を評価・最適化するために設計されています。公式発表によると、WorldPMに基づいて微調整を行うことで、特に人間の好みをキャプチャするシナリオで優れたパフォーマンスを発揮します。この特性により、強化学習や監督微調整において理想的なツールとなり、開発者が効率的なモデル最適化を実現できる道を開きました。

オープンソース戦略:世界中の開発者を支援

Qwenチームは引き続きオープンソース精神を堅持しており、WorldPMシリーズはすべてApache2.0ライセンスのもとで公開され、Hugging Faceプラットフォーム上から全世界の開発者が無料でダウンロード・使用することができます。このようなオープンな戦略は技術的な障壁を低くし、QwenがグローバルなオープンソースAIエコシステムにおけるリーダーシップをさらに強固なものにしました。Xプラットフォームでは、WorldPMのリリースを「オープンソースモデルエコシステムにおける新しいマイルストーン」として称賛する声が多く、特に監視学習や好み評価の分野で熱い議論が巻き起こっています。

注意すべき点として、WorldPMは汎用的な対話モデルではなく、他のモデルに対する好み評価や最適化の指導を専門としています。例えば、開発者はWorldPM-72Bを利用して生成型AIの回答をスコアリングし、特定のタスクにおけるパフォーマンスを向上させることができます。この専門的な位置付けにより、AI開発チェーンにおいて重要な役割を果たしています。

技術的特徴:規模と効率のバランス

WorldPMの開発プロセスにおいて、Qwenチームは多様な好みデータを収集しました。これは、公共フォーラムからのデータであり、複数のユーザーコミュニティをカバーし、異なる文化や言語背景での適応性を確保しました。トレーニングデータの規模は1500万件に達し、1.5Bから72Bパラメータのアーキテクチャを組み合わせることで、WorldPMは強力な汎化能力を発揮しました。公式技術レポートによれば、WorldPMは敵対的評価において優れたパフォーマンスを示し、テスト損失はべき乗律で減少しました。これは、意図的に誤った回答や関連性がない、または不完全な回答を正確に識別できる能力を示しています。

また、WorldPMのスタイルバイアスに関する最適化にも注目が集まっています。モデル規模が拡大するにつれ、WorldPMは次第にスタイルの中立性を獲得し、主観的評価における一般的なバイアス問題を克服しました。これにより、客観的な分野でのパフォーマンスが特に際立ち、特にコードや数学など正確な推論が必要なタスクにおいて顕著な優位性を発揮しました。

Hugging Face: https://huggingface.co/Qwen/WorldPM-72B