バイチューティアのSeedチームが形式的数学推論モデルであるSeed Prover1.5をリリースし、大規模なAgentic強化学習により推論能力と効率を著しく向上させました。このモデルは2025年の国際数学オリンピック競技会で3日間で6問中4問を解決し、1問については部分的な解答も行い、その優れた性能を示しました。
AIモデルは科学的推論能力の評価において重要な進展を遂げ、国際数学・情報オリンピックコンテストで優れたパフォーマンスを発揮しています。GPT-5などの先進的なモデルの発展に伴い、AIは実際の科学研究のプロセスを効果的に加速しており、強力な仮説の提示、テストと修正および多分野にわたる統合能力を示しています。
グーグルはGeminiアプリにGemini3Deep Thinkモードを導入し、Ultraサブスクリプションユーザー向けに提供しています。このモードでは推論能力が大幅に強化されており、複雑な数学、科学および論理的な問題に対応しています。現在の最上位モデルと競い合っています。多くのベンチマークテストで優れた結果を示しており、「人類最後の試験」においてツールを使用せずに41.0%の得点を獲得し、ARC-AGI-2テストではコード実行を利用してトップの成績を収めました。
OpenAI研究者ブベック氏がGPT-5との共同作業を共有。数学タスクで卓越した能力を発揮し、1ヶ月分の複雑作業を午後だけで解決。ソリューション設計からシミュレーション検証までを高效的に実行し、新世代言語モデルの可能性を示した。....
強化学習によって最適化された大規模言語モデルで、数学問題解決能力の向上に特化しています。
小型言語モデルが自己進化と深層思考を通じて数学的推論能力を習得する研究成果を示します。
Eurus-2-7B-SFTは、数学的能力を最適化された大規模言語モデルであり、推論と問題解決に特化しています。
オープンソースのコード言語モデル。プログラミングと数学的推論能力を向上させます。
Openai
-
入力トークン/百万
出力トークン/百万
コンテキスト長
Google
$0.7
$2.8
1k
Anthropic
$7
$35
200
$2.1
$17.5
$21
$105
Alibaba
$1
$10
256
$4
$16
$2
$20
Bytedance
$0.8
Moonshot
128
$0.15
$1.5
Baidu
32
Deepseek
$12
Tencent
squ11z1
Hypnos i1-8BはNous Hermes 3(Llama 3.1 8B)に基づく専門的な推論モデルで、複雑な論理、思考連鎖推論、数学問題の求解に特化しています。このモデルは、混合量子 - 古典機械学習の分野で独自の探求を行い、量子ノイズ注入を導入することで、モデルの創造力と推論能力を向上させています。
allenai
Olmo 3は、Allen Institute for AIによって開発された次世代の言語モデルシリーズで、7Bと32Bの2種類の規模があり、命令型と思考型の2種類のバリエーションがあります。このモデルはDolma 3データセットで事前学習され、Dolciデータセットで事後学習され、長い連鎖的な思考能力を備えており、数学やコーディングなどの推論タスクで優れた性能を発揮します。
Olmo-3-7B-Think-DPOはAllen Institute for AIが開発した70億パラメータの言語モデルで、長い連鎖的な思考能力を持ち、数学やコーディングなどの推論タスクで優れた性能を発揮します。このモデルは、教師付き微調整、直接的な嗜好最適化、検証可能な報酬に基づく強化学習などの多段階の訓練を経ており、研究や教育目的に特化して設計されています。
Olmo 3はAllen Institute for AI (Ai2)によって開発された一連の言語モデルで、7Bと32Bの2種類の規格があり、InstructとThinkの2種類のバリエーションがあります。このモデルはTransformerアーキテクチャに基づいており、長い思考チェーン能力を持ち、数学やコーディングなどの推論タスクの性能を効果的に向上させることができます。
Olmo 3はAllen Institute for AIによって開発されたオープンソースの言語モデルシリーズで、7Bと32Bの2種類の規格があり、指令(Instruct)と思考(Think)の2種類のバリエーションに分かれています。このモデルは卓越した長鎖思考能力を持ち、数学やコーディングなどの推論タスクのパフォーマンスを大幅に向上させることができます。
Olmo 3 7B RL-Zero Mathは、Allen AIによって開発された、数学的推論タスクに特化して最適化された70億パラメータの言語モデルです。RL-Zero強化学習方法を用いて数学データセットで訓練され、数学的推論能力を効果的に向上させます。
Olmo 3 7B RL-Zero Mixは、Allen AIが開発した7Bパラメータ規模の言語モデルで、Olmo 3シリーズに属します。このモデルはDolma 3データセットで事前学習され、Dolciデータセットで事後学習され、強化学習によって数学、コーディング、推論能力が最適化されています。
Olmo-3-32B-Think-DPOはAllen AIが開発した32Bパラメータの言語モデルで、直接嗜好最適化(DPO)を用いて訓練され、長鎖的な思考推論能力を備え、数学やコーディングなどの複雑な推論タスクで優れた性能を発揮します。
EpistemeAI
metatune-gpt20bは、自己改善能力を持つ大規模言語モデルのプロトタイプで、自身に新しいデータを生成し、自身のパフォーマンスを評価し、改善指標に基づいてハイパーパラメータを調整することができます。このモデルは、博士後レベルの科学と数学の理解能力に優れており、コーディングタスクにも使用できます。
Nanbeige
Nanbeige4-3B-Thinkingは第4世代のNanbeige大規模言語モデルファミリーの30億パラメータの推論モデルで、データ品質とトレーニング方法の向上により、高度な推論能力を実現しています。このモデルは数学、科学、創造的な文章作成、ツールの使用などの複数の分野で優れた性能を発揮し、多段階のコース学習と強化学習トレーニングをサポートしています。
Olmo-3-7B-Think-SFTはAllen Institute for AIが開発した7Bパラメータの言語モデルで、長い連鎖的な思考能力を持ち、数学やコーディングなどの推論タスクで優れた性能を発揮します。このモデルはDolma 3データセットで事前学習され、Dolciデータセットで後続の学習が行われています。
Thrillcrazyer
Qwen-1.5B_THIPは、DeepSeek-R1-Distill-Qwen-1.5Bをベースに、DeepMath-103k数学データセット上でTRLフレームワークを使用してGRPO方法で微調整された数学的推論モデルです。このモデルは、数学問題の解決に特化して最適化されており、強力な数学的推論能力を備えています。
Jackrong
本プロジェクトでは、革新的な二段階訓練プロセスを通じて、GPTの推理能力をLlama - 3.1 - 8Bモデルに蒸留します。まず、教師付き微調整によって知識の蒸留と形式の整列を行い、次に強化学習によってモデルに自主的に探索し、推理戦略を最適化させます。特に、数学推理分野の能力向上に注力しています。
suayptalha
Sungur-14Bは、トルコ語に特化した大規模言語モデルで、Qwen/Qwen3 - 14Bをベースに派生しています。このモデルは、41,100個のトルコ語サンプルを含むデータセットを使用して微調整され、数学、医学、一般知識などの分野の推理会話をカバーし、トルコ語の地域的な推理能力を強化することを目的としています。
foreverlasting1202
QuestAは、問題強化手法を用いて大規模言語モデルの推論能力を向上させる革新的なフレームワークです。強化学習訓練の過程で部分解決策を組み込むことで、数学推論などの複雑なタスクにおけるモデルの性能を大幅に向上させ、特に小パラメータモデルで最適な結果を達成しています。
prithivMLmods
Leporis-Qwen3-Radiation-1.7Bは推論に特化したモデルで、Qwenをベースに微調整され、高精度な推論とトークン確率の最適化に使用されます。このモデルは、数学と一般的な推論にまたがる多言語のバランスの取れた生成能力を強化し、イベント駆動型の論理、構造化分析、高精度な確率モデリングに特化しています。
palmyra-miniシリーズのモデルは、複雑な推論や数学の問題解決の分野で卓越した能力を発揮し、特に深い理解と多段階の思考が必要なベンチマークテストで優れた成績を収めています。このモデルは小学校レベルの数学問題を解くのに長けており、gsm8kベンチマークテストで0.818の高得点を獲得し、MATH500ベンチマークテストでも0.818の得点を、AMC23ベンチマークテストでは0.6の安定した得点を獲得しています。
facebook
MobileLLM-R1はMetaが開発した効率的な推論モデルシリーズで、数学、プログラミング、科学の問題解決に特化しています。このモデルは140M、360M、950Mの3つの規模のバージョンを提供し、優れた推論能力と再現性を備えています。
inclusionAI
Ring-mini-2.0はLing 2.0アーキテクチャを基に深度に最適化された高性能推論型MoEモデルで、総パラメータが160億、活性化パラメータが14億に過ぎないが、100億規模以下の密集モデルと同等の総合推論能力を実現しています。論理推論、コード生成、数学タスクにおいて優れた性能を発揮し、12.8万の長文脈処理と毎秒300以上のトークンの高速生成をサポートしています。
ertghiu256
これはQwen3-4Bアーキテクチャに基づく融合モデルで、TIES方法を通じて複数のQwen3微調整モデルを融合し、特に推論、コード、数学能力を強化し、複数の推論インターフェースでの実行をサポートしています。
ローカルデプロイ不要のMCPサーバーで、数学計算を処理するために特別に設計されており、簡単な設定で大規模言語モデルに常に正確な数学計算能力を提供します。
MCP推論サーバーはClaude Desktopに体系的な推論能力を提供し、ビームサーチとモンテカルロ木探索の2種類の戦略をサポートし、数学や論理などの複雑な問題の解決に適しています。
MCPプロトコルとSymPyライブラリに基づく数学計算サービスで、強力な記号計算能力を提供し、基本演算、代数演算、微積分、方程式の求解、行列演算などの機能を備えています。
MCPプロトコルとSymPyライブラリに基づく数学計算サービスで、強力なシンボル計算能力を提供します。
ランダムアルゴリズムと確率的決定能力を提供するMCPサーバーです。高度な数学モデルを通じて順序思考を拡張し、AIアシスタントが局所的な思考パターンから脱却し、より良い決定計画を行えるように支援します。
これはClaudeに高度な数学計算能力を提供するMCPサーバーで、記号計算、統計分析、行列演算などの機能が含まれています。
MCPプロトコルとSymPyライブラリに基づく数学計算サービスで、強力なシンボル計算能力を提供します