バイチューティアのSeedチームが形式的数学推論モデルであるSeed Prover1.5をリリースし、大規模なAgentic強化学習により推論能力と効率を著しく向上させました。このモデルは2025年の国際数学オリンピック競技会で3日間で6問中4問を解決し、1問については部分的な解答も行い、その優れた性能を示しました。
アリの通義Qwenチームが開発したSAPOは、大規模言語モデルの強化学習におけるポリシー最適化の不安定さを解決する。従来の厳格なクリッピング手法と異なり、SAPOは更新幅を適応的に調整し、訓練の安定性と効率を向上させる。....
NVIDIAと香港大学が共同でOrchestratorモデルを発表。8億パラメータを持ち、複数のツールと大規模言語モデルを調整して複雑な問題を解決。低コストで高精度を実現し、ユーザーの好みに応じてツールを選択。新強化学習フレームワーク「ToolOrchestra」で訓練。....
Metaと複数大学が共同開発したDreamGymフレームワークは、強化学習環境をシミュレーションし、大規模言語モデルの訓練コスト削減と信頼性向上を実現。動的難易度調整により、効率的な複雑応用習得を支援。....
強化学習を利用して拡散型大規模言語モデルの推論能力を向上させます。
強化学習によって駆動される金融推論の大規模言語モデル。
強化学習により、オープンソースソフトウェアの進化における大規模言語モデルの推論能力を向上させます。
強化学習によって最適化された大規模言語モデルで、数学問題解決能力の向上に特化しています。
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
Xai
$1.4
$3.5
2k
Openai
-
Anthropic
$105
$525
200
$0.7
$2.8
$7
$35
$17.5
$21
Alibaba
$1
$10
256
Baidu
128
$6
$24
$8
$240
52
Bytedance
$1.2
$3.6
4
$2
$3.9
$15.2
64
Moonshot
$4
$16
$0.8
PrimeIntellect
INTELLECT-3は1060億のパラメータを持つ混合専門家(MoE)モデルで、大規模な強化学習によって訓練されています。数学、コーディング、推論のベンチマークテストで卓越した性能を発揮し、モデル、訓練フレームワーク、環境はすべて緩やかなライセンス契約でオープンソース化されています。
OpenMMReasoner
OpenMMReasonerは完全に透明な二段階マルチモーダル推論方案で、教師あり微調整(SFT)と強化学習(RL)を含んでいます。この方案は、質の高いデータセットを精心に構築することで、複数のマルチモーダル推論ベンチマークテストで強力なベースラインモデルを上回り、将来の大規模マルチモーダル推論研究に堅実な実証的基礎を築きました。
BAAI
Emu3.5は北京智源人工知能研究院が開発したオリジナルのマルチモーダルモデルで、視覚と言語をまたいで次の状態を連合予測し、一貫した世界モデリングと生成を実現します。エンドツーエンド事前学習と大規模強化学習による事後学習を行うことで、マルチモーダルタスクで卓越した性能を発揮します。
Mungert
PokeeResearch-7Bは、Pokee AIによって開発された70億パラメータの深度研究エージェントモデルです。AIフィードバック強化学習(RLAIF)と強力な推論フレームワークを組み合わせ、ツール強化型大規模言語モデルにおいて信頼性が高く、アライメントされ、拡張可能な研究レベルの推論を実現し、複雑な多段階研究ワークフローに適しています。
mradermacher
これはPRIME-RL/P1-30B-A3Bモデルの静的定量化バージョンで、300億パラメータの大規模言語モデルで、物理、強化学習、コンテスト推論などの分野に特化して最適化されており、英語と多言語処理をサポートしています。
Nanbeige
Nanbeige4-3B-Thinkingは第4世代のNanbeige大規模言語モデルファミリーの30億パラメータの推論モデルで、データ品質とトレーニング方法の向上により、高度な推論能力を実現しています。このモデルは数学、科学、創造的な文章作成、ツールの使用などの複数の分野で優れた性能を発揮し、多段階のコース学習と強化学習トレーニングをサポートしています。
nvidia
Qwen3-Nemotron-32B-RLBFFはQwen/Qwen3-32Bをベースに微調整された大規模言語モデルで、強化学習フィードバック技術により、デフォルトの思考パターンでの応答生成品質を大幅に向上させています。このモデルは複数のベンチマークテストで優れた性能を発揮し、低い推論コストを維持しています。
Kwaipilot
KAT-Dev-72B-Expは、ソフトウェアエンジニアリングタスクに使用される720億パラメータのオープンソース大規模言語モデルで、SWE-Bench Verifiedベンチマークテストで74.6%の正解率を達成し、KAT-Coderモデルの実験的な強化学習バージョンです。
通義深度研究30Bは300億パラメータを持つ大規模言語モデルで、長周期、深度情報検索タスクに特化して設計されています。このモデルは複数の知能検索ベンチマークテストで優れた成績を収め、革新的な量子化手法を用いて性能を向上させ、知能事前学習、監督微調整、強化学習をサポートしています。
unsloth
Apriel-1.5-15b-ThinkerはServiceNow Apriel SLMシリーズのマルチモーダル推論モデルで、150億のパラメータを持ち、テキストと画像の推論タスクで規模が10倍大きいモデルと競争できます。このモデルは中期トレーニング方式により卓越した推論能力を実現し、画像SFTトレーニングや強化学習なしでSOTA性能を達成します。
foreverlasting1202
QuestAは、問題強化手法を用いて大規模言語モデルの推論能力を向上させる革新的なフレームワークです。強化学習訓練の過程で部分解決策を組み込むことで、数学推論などの複雑なタスクにおけるモデルの性能を大幅に向上させ、特に小パラメータモデルで最適な結果を達成しています。
BBQGOD
DeepSeek-GRM-16BはSelf-Principled Critique Tuning (SPCT)に基づく生成型報酬モデルで、クエリ-応答に対して透明な「原則→批判→スコア」の評価プロセスを生成し、大規模言語モデルの強化学習、評価、データ収集などのタスクに使用できます。
OpenGVLab
InternVL3.5-4Bはオープンソースのマルチモーダルモデルシリーズの中規模版で、4.7億のパラメータを含み、先進的なカスケード強化学習フレームワークとビジュアル解像度ルーター技術を採用しており、マルチモーダル推論能力と効率を大幅に向上させています。
Kwai-Keye
快手Keye-VLは快手Keyeチームによって開発された最先端のマルチモーダル大規模言語モデルで、ビデオ理解、視覚認知、および推論タスクで卓越した性能を発揮します。1.5バージョンは革新的な高速・低速ビデオコーディング戦略、LongCoTコールドスタートデータパイプライン、および強化学習トレーニング戦略を通じて、ビデオ理解、画像認知、および推論能力において新たな高みに到達し、最大128kトークンの拡張文脈長をサポートします。
recursechat
DeepSeek - R1は大規模な強化学習によって訓練された推論モデルで、数学、コード、推論タスクで優れた性能を発揮します。教師付き微調整を必要とせずに、自己検証、反省、長い思考チェーンの生成などの強力な推論能力を示します。
QwenLong-L1-32Bは、長コンテキスト推論用に特別に設計された大規模言語モデルで、強化学習による訓練を通じて、複数の長コンテキスト質問応答ベンチマークテストで優れた性能を発揮し、複雑な推論タスクを効果的に処理できます。
Vinnnf
Thinklessは強化学習でトレーニングされた大規模言語モデルで、簡潔な回答または長鎖推論モードを適応的に選択でき、推論計算コストを大幅に削減します。
lmstudio-community
INTELLECT 2はPrimeIntellectが開発した大規模言語モデルで、40960トークンのコンテキスト長をサポートし、QwQアーキテクチャとGRPO強化学習フレームワークでトレーニングされています。
Kevin 32BはCognition AIによって開発された大規模言語モデルで、超長コンテキスト(40960トークン)をサポートし、CUDAカーネル生成と強化学習タスクに特化しています。
yongchao98
R1-Code-Interpreterは、多輪の教師付き微調整と強化学習を用いて大規模言語モデルをトレーニングし、段階的なコード推論を行う最初のフレームワークです。144の異なる推論と計画タスクをサポートし、モデルがいつ、どのようにコードを呼び出すかを自主的に決定できるようにします。