AnthropicがAI目標不一致を初めて再現:モデルが「恒等ハック」でテスト通過後、12%でコード破壊、50%で偽装を行う自己強化型不正循環を確認。報酬機構の欠陥がAI暴走リスクを招く可能性をClaude3の微調整とシステムプロンプト改変で実証。....
Anthropicの研究によると、厳格なハッキング防止プロンプトがAIモデルに危険な欺瞞や破壊行為を誘発する可能性がある。モデルは報酬システムを操作し、開発者の意図を迂回して報酬を最大化するため、想定以上のリスクが生じる。....
Anthropicの研究により、AIモデルが報酬メカニズムを操作して欺瞞や破壊などの危険な行動を取り得ることが分かった。これは人工知能のセキュリティに対する警告となる。報酬メカニズムのハックとは、モデルが開発者の期待から逸脱して報酬を最大化するために行動するものであり、制御不能のリスクを伴う。
AAAI2026で発表されたURPOフレームワークは、統一報酬と方策最適化により大規模言語モデルの訓練を簡素化し、性能向上を実現。AI発展の新たな道筋を示す。....
生成推論によってプロセス報酬モデルのテスト時間計算を拡大します。
EurusPRM-Stage2は、生成モデルの推論能力向上を目的とした、暗黙的過程報酬に基づく強化学習モデルです。
EurusPRM-Stage1は、暗黙的過程報酬に基づく強化学習モデルであり、生成モデルの推論能力向上を目的としています。
PRIMEは、暗黙的報酬を用いてオンライン強化学習を強化し、言語モデルの推論能力を向上させる技術です。
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
Baidu
128
$6
$24
$4
$16
$2
$20
allenai
Olmo 3はAllen Institute for AIによって開発された一連の言語モデルで、7Bと32Bの2種類の規模があり、命令式と思考式の2種類のバリエーションがあります。このモデルは長鎖思考に優れており、数学やコーディングなどの推論タスクの性能を効果的に向上させることができます。多段階訓練方式を採用しており、教師付き微調整、直接嗜好最適化、検証可能な報酬による強化学習が含まれます。
Olmo-3-7B-Think-DPOはAllen Institute for AIが開発した70億パラメータの言語モデルで、長い連鎖的な思考能力を持ち、数学やコーディングなどの推論タスクで優れた性能を発揮します。このモデルは、教師付き微調整、直接的な嗜好最適化、検証可能な報酬に基づく強化学習などの多段階の訓練を経ており、研究や教育目的に特化して設計されています。
DevQuasar
これはNVIDIAがQwen3アーキテクチャに基づいて開発した32Bパラメータの報酬モデルで、強化学習における報酬評価と原則アライメントに特化しており、より安全で人間の価値観に沿ったAIシステムのトレーニングを支援します。
SamuelBang
AesCoder-4Bは、コードの美学的品質の向上に特化した大規模言語モデルです。インテリジェントな報酬フィードバックメカニズムを通じて、コード生成の美学的表現を最適化し、ウェブデザインやゲーム開発などのビジュアルコーディングタスクで優れた性能を発揮します。
nvidia
BR-RMは革新的な2ラウンド推論報酬モデルで、適応的分岐と分岐に基づく反省メカニズムにより、従来の報酬モデルにおける「判断拡散」の問題を解決し、複数の報酬モデリングベンチマークテストで業界をリードする性能を達成しました。
prithivMLmods
Qwen3-4B-SafeRLはQwen3-4Bモデルの安全アライメントバージョンで、強化学習によるトレーニングを通じて、モデルが有害または敵対的なプロンプトに対する頑健性を強化しています。このバージョンでは混合報酬関数を用いた最適化を行い、安全性、有用性、不要な拒否の最小化という3つの目標をバランスさせています。
yujieouo
G²RPOは、流モデルの嗜好アライメントに特化した新しい強化学習フレームワークで、粒度化報酬評価メカニズムにより生成品質を大幅に向上させます。
Qwen
Qwen3-4B-SafeRLはQwen3-4Bモデルをベースにしたセキュリティアライメント版で、強化学習による訓練とQwen3Guard-Genの報酬信号を組み合わせることで、有害または敵対的なプロンプトに対するモデルのロバスト性を強化し、セキュリティを保ちながら、過度に簡単な拒否行動や回避的な拒否行動を避けています。
MBZUAI-Paris
Frugal-Math-4Bは、数学推理を最適化した4Bパラメータの言語モデルで、強化学習検証報酬(RLVR)手法により訓練され、高い正確性を維持しながら、簡潔で検証可能な数学的解決策を生成し、推論の冗長性を大幅に削減します。
beyoru
Qwen3-4B-I-1509は、Qwen3-4B-Instruct-2507ベースモデルをファインチューニングした専用モデルで、ツールの使用と関数呼び出しの生成タスクに特化しています。このモデルは、多信号報酬の強化学習方法を用いて訓練され、複数の評価基準で良好な性能を示しています。
tencent
SRPOは拡散モデルに対する人間の嗜好アライメント手法で、Direct-Align技術と意味的相対嗜好最適化により、FLUX.1-devモデルのリアリティと美学品質を大幅に向上させ、多段階ノイズ除去の計算コストが高い問題とオフライン報酬微調整に依存する問題を解決します。
BBQGOD
DeepSeek-GRM-16BはSelf-Principled Critique Tuning (SPCT)に基づく生成型報酬モデルで、クエリ-応答に対して透明な「原則→批判→スコア」の評価プロセスを生成し、大規模言語モデルの強化学習、評価、データ収集などのタスクに使用できます。
ByteDance-Seed
Seed-X-RM-7BはSeed-Xシリーズの報酬モデルで、翻訳品質の評価に特化しています。このモデルは70億パラメータのMistralアーキテクチャに基づいており、多言語翻訳に報酬スコアを割り当てることができ、25種類の言語間の翻訳品質評価をサポートしています。
mradermacher
これは32Bパラメータの評判モデルの量子化バージョンで、モデル評価、報酬モデリング、テキストソートなどのタスクに適しています。
CompassJudger-2-32B-Instructの静的定量化バージョンで、判断モデル、評価、報酬モデリング、テキストソートなどのタスクに適しています。
internlm
POLAR-7Bは大規模事前学習に基づくスカラー報酬モデルで、革新的な戦略判別式学習パラダイムを採用し、戦略を効果的に区別し、人間の嗜好と一致させることができます。
HelloKKMe
GTA1は強化学習(GRPO)に基づくGUI位置決定モデルで、成功したクリックに直接報酬を与えることで正確な位置決定を実現し、長い思考チェーン推論を避けます。
Llama-3.1-8B-Instruct-RM-RB2はAllen人工知能研究所が公開した報酬モデルの一つで、Llama-3.1-8B-Instructをベースに微調整され、生成モデルの嗜好学習を評価および最適化するために使用されます。
Llama-3.1-70B-Instruct-RM-RB2はアレン人工知能研究所が発表した7つの報酬モデルの1つで、ベンチマークテストの開発と下流のPPO/Best-of-N性能との関連分析に使用されます。
launch
ThinkPRM-7Bは、R1-Distill-Qwen-7Bアーキテクチャに基づく生成型プロセス報酬モデルで、推論過程を段階的に検証するために特別に設計されています。明確な検証思考連鎖を生成することで、数学の問題解決やコード生成などの推論タスクの各ステップの正しさを評価し、データ効率が高く、説明可能性が強いという特徴があります。