Google Gemini 3 ProがLMArena史上最高の1501 Eloを記録し、GPT-5.1などを超え多モデル首位に。科学・数学・映像タスクで卓越し、『人類究極試験』37.5%、GPQA Diamond 91.9%を達成。Deep Thinkモードで推理力を強化、ARC-AGI-2テストで45.1%を獲得。....
Moonshot
$4
入力トークン/百万
$16
出力トークン/百万
256
コンテキスト長
Baidu
-
32
Tencent
$1
Alibaba
$0.75
$2
64
Bytedance
$0.8
$8
Iflytek
Deepseek
128
Xai
$0.5
$0.3
224
Google
$8.75
$70
1k
Intel
DeepMathは40億パラメータの数学推理モデルで、Qwen3 - 4B Thinkingをベースに構築され、微調整された大規模言語モデルとサンドボックス化されたPython実行器を組み合わせています。これは計算ステップに対して簡潔なPythonコード断片を生成し、エラーを大幅に減らし、出力長を短縮します。
Jackrong
本プロジェクトでは、革新的な二段階訓練プロセスを通じて、GPTの推理能力をLlama - 3.1 - 8Bモデルに蒸留します。まず、教師付き微調整によって知識の蒸留と形式の整列を行い、次に強化学習によってモデルに自主的に探索し、推理戦略を最適化させます。特に、数学推理分野の能力向上に注力しています。
suayptalha
Sungur-14Bは、トルコ語に特化した大規模言語モデルで、Qwen/Qwen3 - 14Bをベースに派生しています。このモデルは、41,100個のトルコ語サンプルを含むデータセットを使用して微調整され、数学、医学、一般知識などの分野の推理会話をカバーし、トルコ語の地域的な推理能力を強化することを目的としています。
MBZUAI-Paris
Frugal-Math-4Bは、数学推理を最適化した4Bパラメータの言語モデルで、強化学習検証報酬(RLVR)手法により訓練され、高い正確性を維持しながら、簡潔で検証可能な数学的解決策を生成し、推論の冗長性を大幅に削減します。
Mungert
AceMath-7B-Instructは数学推理用に設計された最先端のモデルで、Qwen2.5-Math-7B-Baseをベースに開発され、思考連鎖(CoT)推論を使って英語の数学問題を解くことに長けています。
mradermacher
UniReason-Qwen3-14B-RL は量子化された多領域適用モデルで、特にテキスト生成と数学推理タスクに長けています。
UniReason-Qwen3-14B-RLの静的量子化バージョンで、テキスト生成と数学推理の研究シーンに適しています。
togethercomputer
M1はMambaハイブリッドアーキテクチャに基づく3Bパラメータ規模のモデルで、数学推理タスクに特化し、複数の数学競技ベンチマークテストで優れた成績を収めています。
unsloth
Phi-4-mini-reasoningは軽量級のオープンソースモデルで、数学推理に特化し、128Kトークンのコンテキスト長をサポートし、計算リソースが制限された環境に適しています。
MathGenie
MathCoder2は、MathCode - Pile数学コードデータセットで継続的な事前学習を行うことで作成されたモデルで、高度な数学推理タスクに強力なサポートを提供し、数学推理能力において著しい向上が見られます。
nvidia
OpenMathモデルは、テキスト推理とPythonインタープリターで実行されるコードブロックを統合することで、数学問題を解くために特別に設計されています。OpenMathInstruct-1データセットを基に訓練され、180万の数学問題と解決策のペアを含んでいます。
meta-math
MetaMath-Llemma-7Bは、Llemma-7Bモデルをベースに、MetaMathQAデータセットで全量微調整された数学専用の大規模言語モデルです。このモデルは数学推理タスクで著しい性能向上を示し、特にMATHデータセットでは19.8から30.0に向上しました。