アリババの「通義千問」チームがまたすごいニュースを発表しました!今回公開されたのはQwen2Math Demoという数学モデルで、その能力は驚異的です。なんとGPT-4をも凌駕する性能を誇ります。
このモデルは、テキスト入力による数学問題だけでなく、画像やスクリーンショット内の数式も理解できます。例えば、計算式の画像を撮影するだけで解答を得られるため、まさに数学の学習における強力なツールと言えるでしょう!(ただし、不正行為には使用しないでください)
Qwen2-Mathは、72B、7B、1.5Bの3つのバージョンが公開されました。特に72Bバージョンは数学の天才と言えるほどの性能で、MATHデータセットにおいてGPT-4を7点上回り、9.6%の向上を達成しました。これは、高考の数学で145点を取ったのに対し、周りの秀才が132点だったようなものです。
さらに驚くべきことに、7Bバージョンはパラメーター数が72Bのわずか10分の1にも満たないにもかかわらず、72Bのオープンソース数学モデルであるNuminaMathを上回りました。NuminaMathは、世界初のAIMOで受賞したモデルであり、数学界の重鎮である陶哲軒氏から表彰されたモデルです。
アリババの上級アルゴリズム専門家である林俊旸氏は、Qwen2モデルを数学の達人へと変貌させたことを興奮気味に発表しました。その秘訣は、特別に設計された「数学補脳液」——精選された数学専用のデータセットです。この「補脳液」には、質の高い数学に関するウェブテキスト、書籍、コード、試験問題、さらにはQwen2モデル自身が作成した数学問題までもが含まれています。
その成果は目覚ましく、GSM8K、MATHなどの定番数学テストセットにおいて、Qwen2-Math-72Bは405BのLlama-3.1を大きく引き離しました。これらのテストセットには、代数、幾何学、確率、数論など、様々な難しい数学問題が含まれています。
さらに、Qwen2-Mathは中国語のデータセットCMATHと高考の問題にも挑戦しました。中国語のデータセットでは、1.5Bバージョンですら70BのLlama3.1を凌駕しました。どのバージョンも、同規模のQwen2基本モデルと比較して、明らかに性能が向上しています。
「通義千問」は、真に数学の天才を生み出したと言えるでしょう!今後は数学の問題をこのモデルに尋ねてみるのも良いかもしれませんね。ただし、あくまでツールであることを忘れずに、自身の数学の基礎力はしっかりと鍛えましょう!
オンライン体験アドレス:https://huggingface.co/spaces/Qwen/Qwen2-Math-Demo