OpenAIは最近、最新のAI推論モデルo3とo4-miniを監視し、生物・化学兵器に関する脅威に関連するプロンプトを阻止するための新システムを発表しました。このシステムの目的は、有害な攻撃を扇動する可能性のある助言をモデルが提供することを防ぎ、AIの安全性を確保することです。

OpenAI、ChatGPT、人工知能、AI

OpenAIによると、o3とo4-miniは以前のモデルよりも能力が大幅に向上しているため、悪意のあるユーザーの手に渡ると新たなリスクが生じる可能性があります。OpenAIの内部ベンチマークテストによると、o3は特定の生物兵器に関する質問への回答において特に優れた性能を示しました。これらのリスクに対処するため、OpenAIは「安全重視の推論監視システム」と呼ぶ新しい監視システムを開発しました。

この監視システムは、生物・化学リスクに関連するプロンプトを識別し、モデルにこれらのトピックに関する助言の提供を拒否させるようにカスタマイズしてトレーニングされています。基準を確立するために、OpenAIの「レッドチーム」メンバーは約1000時間を費やし、o3とo4-miniにおける生物学的リスクに関連する「危険な」会話をタグ付けしました。シミュレーションテストでは、OpenAIの安全監視システムは危険なプロンプトへの応答の98.7%を阻止することに成功しました。

それにもかかわらず、OpenAIは、このテストでは監視システムによって阻止された後、新たなプロンプトを試みる可能性のあるユーザーは考慮されていないことを認めており、そのため、一部の人工監視への依存を継続すると述べています。OpenAIによると、o3とo4-miniは「高リスク」の生物学的リスクの閾値を超えていませんが、o1やGPT-4と比較して、生物兵器開発に関する質問への回答においてより優れた性能を示しました。

OpenAIはまた、悪意のあるユーザーが化学・生物兵器の開発にモデルをどのように利用できるかについて積極的に追跡し、「準備フレームワーク」を更新しています。同社は、モデルがもたらすリスクを軽減するために、自動化システムへの依存度を高めています。たとえば、GPT-4oのネイティブ画像ジェネレーターが児童ポルノコンテンツを作成することを防ぐために、OpenAIはo3とo4-miniと同様の推論監視システムを使用していると述べています。

しかし、OpenAIが安全性を十分に重視しているかどうかについて懸念を示す研究者もいます。Metrというレッドチームのパートナー企業は、o3の欺瞞行動ベンチマークテストの評価に割いた時間が比較的短かったと指摘しています。同時に、OpenAIは、最新リリースのGPT-4.1モデルのセキュリティレポートを公開することを選択していません。

要点:

🌐 OpenAIは、AIモデルを監視して生物・化学リスク情報を阻止する新システムを発表。

🛡️ 新しい「安全推論監視システム」は、危険なプロンプトへの応答の98.7%を効果的に拒否。

🔍 研究者らは、OpenAIの安全への重視度について懸念を表明し、より多くの透明性を求めている。