OpenAIは新たなGPT-5モデルを公開し、計算と言語能力を強化しました。このモデルは主に数学と科学の研究に応用され、薬物開発や新しい材料の発見のプロセスを加速する可能性があります。この技術は複雑な問題を効率的に解決する支援を行い、AIが科学技術の発展を推進する業界トレンドに沿っています。
アリババはアップグレードされたAI推論モデルQwen3-Max-Thinkingを発表しました。このモデルはアメリカンインビテーショナルマスゲームとハーバード・マサチューセッツ工科大学数学トーナメント(HMMT)の両方で満点を達成し、中国のAIモデルとして初めてこの2つの上級数学コンペティションで100%の正確率を達成したことを示しています。これにより、その強力な推論力と問題解決能力が際立っています。
オープンAIの副社長ケビン・ウィルは、GPT-5が10の未解決されたエドゥアルドの数学問題を解決し、11の問題を進展させたと語り、議論を巻き起こした。メタのチーフAI科学者ヤン・レクンはこれを「自業自得」と批判し、グーグルディープマインドのCEOデミス・ハサビスは困惑していた。この出来事は、AIの能力に関する主張は注意深く検証する必要があることを示している。
OpenAIのGPT-5Proがスクリーンショットからエルデシュ問題#339が2003年以前に証明された論文を識別し、その発見は数学界を驚かせた。この数論の難問はポール・エルデシュによって提示され、自然数集合Aがr次元の基であるとき、その中からr個の要素を使って特定の数学的性質をカバーできるかどうかが核心であった。22年前に解決されていた謎は、AIが学術検索において持つ潜在的な突破力を見せてくれた。
多機能なアプリで、数学の問題解決、文章の最適化、AIの検出、および研究を行えます。
GoMimは機能が豊富なAI数学問題解決ツールで、無料で段階的に数学方程式や微積分などの問題の解決策を提供します。
Decopy AIは強力なAI執筆ツールで、AI検出、人性化、要約機能を提供し、学術的な執筆をより明確で簡単に改善するのに役立ちます。
強化学習によって最適化された大規模言語モデルで、数学問題解決能力の向上に特化しています。
openai
$108
入力トークン/百万
$432
出力トークン/百万
200k
コンテキスト長
deepseek
$4.03
$15.98
128k
upstage
-
65.5k
xai
$21.6
1M
google
2M
perplexity
AvitoTech
A-vibeはAvito TechによってQwen3 - 8B - Baseをベースに開発されたロシア語最適化大規模言語モデルで、形態素解析器の最適化、モデルの軽量化、多段階トレーニングを通じて、ロシア語のベンチマークテストで優れた性能を発揮し、関数呼び出しと数学問題の解決をサポートします。
Thrillcrazyer
Qwen-1.5B_THIPは、DeepSeek-R1-Distill-Qwen-1.5Bをベースに、DeepMath-103k数学データセット上でTRLフレームワークを使用してGRPO方法で微調整された数学的推論モデルです。このモデルは、数学問題の解決に特化して最適化されており、強力な数学的推論能力を備えています。
prithivMLmods
palmyra-miniシリーズのモデルは、複雑な推論や数学の問題解決の分野で卓越した能力を発揮し、特に深い理解と多段階の思考が必要なベンチマークテストで優れた成績を収めています。このモデルは小学校レベルの数学問題を解くのに長けており、gsm8kベンチマークテストで0.818の高得点を獲得し、MATH500ベンチマークテストでも0.818の得点を、AMC23ベンチマークテストでは0.6の安定した得点を獲得しています。
facebook
MobileLLM-R1はMetaが発表した高速推論用の言語モデルシリーズで、数学、プログラミング、科学的問題解決に特化しています。このモデルはパラメータ規模が小さいにもかかわらず、優れた性能を発揮し、完全な訓練レシピとデータソースを提供して再現研究をサポートします。
MobileLLM - R1はFacebookが開発した高効率推論モデルシリーズで、数学、プログラミング、科学問題の解決に特化しています。このモデルは約2Tの高品質ラベル付きデータのみで事前学習を行ったにもかかわらず、複数のベンチマークテストで優れた性能を発揮しまし。
MobileLLM-R1はMetaが開発した効率的な推論モデルシリーズで、数学、プログラミング、科学の問題解決に特化しています。このモデルは140M、360M、950Mの3つの規模のバージョンを提供し、優れた推論能力と再現性を備えています。
senfu
これはDeepSeek-R1-Distill-Qwen-7Bモデルをベースに、open-r1/OpenR1-Math-220k数学データセットを使用して微調整された大規模言語モデルです。このモデルは、数学的推論と問題解決能力に特化して最適化されており、TRLフレームワークを使用して訓練されています。
launch
ThinkPRM-7Bは、R1-Distill-Qwen-7Bアーキテクチャに基づく生成型プロセス報酬モデルで、推論過程を段階的に検証するために特別に設計されています。明確な検証思考連鎖を生成することで、数学の問題解決やコード生成などの推論タスクの各ステップの正しさを評価し、データ効率が高く、説明可能性が強いという特徴があります。
MathLLMs
MathCoder-VLシリーズのオープンソース大規模マルチモーダルモデルで、汎用数学問題解決のために設計され、視覚とコードを組み合わせて数学推論能力を強化します。
SVECTOR-CORPORATION
Spec-T1-RL-7Bは、数学的推論、アルゴリズム問題の解決、コード生成に特化した高精度の大規模言語モデルで、技術ベンチマークテストで卓越した性能を発揮します。
GreenNode
GreenMind-Medium-14B-R1 は中規模のベトナム語言語モデルで、常識、数学、自然科学、社会科学などの主題において中級レベルの推論を必要とする問題を効果的に解決できます。
nvidia
深層学習に基づく数学問題自動解決システム、代数、幾何、微積分など様々な数学問題に対応
Vijayendra
DeepThinkerv2は深い数学的推論能力を持つ大規模言語モデルで、再帰的思考パターンと多重検証メカニズムにより問題解決の精度を向上させます。
AceMathシリーズの最先端数学推論モデルで、思考連鎖(CoT)推論を用いて英語の数学問題を解決するのに長けています。
Nu2-Lupi-Qwen-14BはQwen 2.5 14Bアーキテクチャを基に設計された数学推論最適化モデルで、複雑な問題解決と論理的推論に優れています。
Qwen-1.5Bをファインチューニングしたコンパクトな多言語推論モデルで、数学問題解決、論理的推論、コード生成、一般的なタスクに優れています
BytedTsinghua-SIA
Qwen2.5-32Bモデルを基にDAPOアルゴリズムでトレーニングされた大規模言語モデルで、数学問題解決と多言語テキスト生成に特化
ydeng9
OpenVLThinker-7B はマルチモーダルタスク処理のために特別に設計された視覚言語推論モデルで、特に視覚数学問題解決に最適化されています。
QizhiPei
MathFusionQAはdeepseek-math-7b-baseを基にした数学問題解決モデルで、命令融合により大規模言語モデルの数学問題解決能力を強化します。
Omartificial-Intelligence-Space
Qwen2.5-3Bをファインチューニングしたアラビア語推論専用言語モデルで、アラビア語言語モデルの論理推論と数学問題解決能力の向上に焦点を当てています。
MCP推論サーバーはClaude Desktopに体系的な推論能力を提供し、ビームサーチとモンテカルロ木探索の2種類の戦略をサポートし、数学や論理などの複雑な問題の解決に適しています。