最高の強化学習 AIツールモデル_厳選強化学習情報

AIニュース

26億パラメータが1000億規模の巨獣を圧倒！Liquid AIの最新実験モデルLFM2-2.6B-Expがリリース

クリスマスに、エッジAIスタートアップのLiquid AIがオープンソースモデルのLFM2-2.6B-Expをリリースしました。わずか26億パラメータながら、多くのベンチマークテストで優れた性能を示し、数百億パラメータを持つDeepSeek R1-0528よりも命令に従う能力が優れていると評価されており、「最強の3Bクラスモデル」として注目されています。このモデルは、第2世代のLFM2ベースモデルに基づき、純粋な強化学習により実験的な突破を達成しました。

15.3k 4 時間前

26億パラメータが1000億規模の巨獣を圧倒！Liquid AIの最新実験モデルLFM2-2.6B-Expがリリース

バイチューティアがSeed Prover1.5をリリース：形式的数学推論の新たな進展

バイチューティアのSeedチームが形式的数学推論モデルであるSeed Prover1.5をリリースし、大規模なAgentic強化学習により推論能力と効率を著しく向上させました。このモデルは2025年の国際数学オリンピック競技会で3日間で6問中4問を解決し、1問については部分的な解答も行い、その優れた性能を示しました。

12.2k 17 時間前

バイチューティアがSeed Prover1.5をリリース：形式的数学推論の新たな進展

リアール・モビリティ OTA 8.1 が正式リリース！スマートドライビングアシスタント VLA が進化し、移動がよりスマートに！

リアール・モビリティのOTA8.1バージョンアップデートにおいて、中心的な特徴はVLAドライバーモデルにおける言語知能の重要な強化です。このアップデートでは強化学習技術を用いて、補助運転をより人間らしくし、移動の安全性や快適さ、運転の使い勝手を向上させ、ユーザーにより直感的で安心できる体験をお届けします。

11.8k おととい

リアール・モビリティ OTA 8.1 が正式リリース！スマートドライビングアシスタント VLA が進化し、移動がよりスマートに！

アリババ・テンセントが新しい強化学習手法SAPOを公開し、大規模言語モデルをより安定かつ強力に

アリの通義Qwenチームが開発したSAPOは、大規模言語モデルの強化学習におけるポリシー最適化の不安定さを解決する。従来の厳格なクリッピング手法と異なり、SAPOは更新幅を適応的に調整し、訓練の安定性と効率を向上させる。....

12.9k 11 時間前

AI製品

ZeroSearch

実際の検索なしで LLM の検索能力を促進するフレームワーク。

AIモデル

6.3k

Search-R1

推論と検索エンジンの呼び出しを行う言語モデルをトレーニングするための、効率的な強化学習フレームワークです。

モデルの訓練とデプロイ

7.8k

d1

強化学習を利用して拡散型大規模言語モデルの推論能力を向上させます。

執筆アシスタント

5.8k

DeepCoder

効率的なコード推論能力を備えた、オープンソースの140億パラメーターのプログラミングモデルです。

コードアシスタント

8.5k

モデル

Spark X1

Iflytek

入力トークン/百万

出力トークン/百万

コンテキスト長

DeepSeek - R1

Deepseek

入力トークン/百万

$16

出力トークン/百万

コンテキスト長

o3

Openai

$14

入力トークン/百万

$56

出力トークン/百万

200

コンテキスト長

qwq-plus

Alibaba

$1.6

入力トークン/百万

出力トークン/百万

128

コンテキスト長

Pangu-NLP-N4-4K-3.2.36

Huawei

入力トークン/百万

出力トークン/百万

コンテキスト長

GPT-4.5

Openai

$525

入力トークン/百万

$1050

出力トークン/百万

128

コンテキスト長

DeepSeek-R1-Distill-Qwen-7B

Deepseek

入力トークン/百万

出力トークン/百万

コンテキスト長

Baichuan-M2-32B

Baichuan

入力トークン/百万

出力トークン/百万

コンテキスト長

ERNIE X1.1 Preview

Baidu

入力トークン/百万

出力トークン/百万

コンテキスト長

o1

Openai

$105

入力トークン/百万

$420

出力トークン/百万

200

コンテキスト長

Qwen_v2.5_1.5b_Instruct

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

Qwen_v2.5_3b_Instruct

Alibaba

入力トークン/百万

出力トークン/百万

コンテキスト長

o1-mini

Openai

$21

入力トークン/百万

$84

出力トークン/百万

128

コンテキスト長

o1-preview

Openai

$105

入力トークン/百万

$420

出力トークン/百万

128

コンテキスト長

ERNIE-3.0

Baidu

入力トークン/百万

出力トークン/百万

コンテキスト長

ERNIE-2.0

Baidu

入力トークン/百万

出力トークン/百万

コンテキスト長

ERNIE-1.0

Baidu

入力トークン/百万

出力トークン/百万

コンテキスト長

MCP

Ontology Mcp Server Rl Stable Baselines3

強化学習に基づくインテリジェントな電子商取引ダイアログエージェントシステムで、本体推論、ビジネスツールチェーン、ダイアログ記憶、Gradioインターフェイスを統合し、Stable Baselines3 PPOアルゴリズムによってデータからトレーニング、デプロイまでの閉ループ学習を実現し、ショッピングアシスタントの意思決定戦略を自主的に最適化することができます。

python

7.2k

2.5ポイント

未来を力づける、あなたの人工知能ソリューションシンクタンク

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

ビジネス協力サイトマップ

AIニュース

26億パラメータが1000億規模の巨獣を圧倒！Liquid AIの最新実験モデルLFM2-2.6B-Expがリリース

バイチューティアがSeed Prover1.5をリリース：形式的数学推論の新たな進展

リアール・モビリティ OTA 8.1 が正式リリース！スマートドライビングアシスタント VLA が進化し、移動がよりスマートに！

アリババ・テンセントが新しい強化学習手法SAPOを公開し、大規模言語モデルをより安定かつ強力に

AI製品

ZeroSearch

Search-R1

d1

DeepCoder

モデル

Spark X1

DeepSeek - R1

o3

qwq-plus

Pangu-NLP-N4-4K-3.2.36

GPT-4.5

DeepSeek-R1-Distill-Qwen-7B

Baichuan-M2-32B

ERNIE X1.1 Preview

o1

Qwen_v2.5_1.5b_Instruct

Qwen_v2.5_3b_Instruct

o1-mini

o1-preview

ERNIE-3.0

ERNIE-2.0

ERNIE-1.0

INTELLECT 3 FP8

Nanbeige4 3B Thinking 2511

OpenMMReasoner ColdStart

OpenMMReasoner RL

Olmo 3 7B Instruct DPO

Olmo 3 7B Think DPO

Olmo 3 7B RL Zero Math

Olmo 3 7B RL Zero Mix

Nvidia.Qwen3 Nemotron 32B GenRM Principle GGUF

Llama 3.1 Newspaper Arguments Grpo Stable V2

Emu3.5

Kimi Linear 48B A3B Base

Kimi Linear 48B A3B Instruct

Pokee_research_7b GGUF

P1 30B A3B GGUF

Granite 4.0 1b ONNX Web

Granite 4.0 350m ONNX Web

Nanbeige4 3B Thinking 2510

Gelato 30B A3B

Pokee_research_7b

MCP

Ontology Mcp Server Rl Stable Baselines3