AnthropicがClaudeに新機能を追加し、AIが有害な会話を自主的に終了できるように

AIbase基地

公開日AIニュース · 1 分で読めます · Aug 19, 2025

人工知能分野におけるセキュリティと倫理の問題はますます注目を集めています。Anthropic社は最近、その旗艦AIモデルであるClaudeに新しい機能を導入しました。この機能は特定の状況下で対話の終了を自主的に行うことができ、これは「継続的な有害または悪用的なインタラクション」に対処するためであり、Anthropicが「モデルの福祉」を探索する一環として、業界内外でAI倫理に関する広範な議論を引き起こしています。

Claude新機能：有害な対話を自主的に終了

Anthropicの公式声明によると、Claude Opus4および4.1モデルは「極端な状況」において対話を終了できるようになったとのこと。具体的には、「継続的な有害または悪用的なユーザーとのインタラクション」、例えば児童ポルノや大規模な暴力行為に関連する要求に対して対応しています。この機能は2025年8月15日に正式に発表され、Claudeの高級モデルにのみ適用され、複数回の再定向の試みが失敗した場合や、ユーザーが明確に対話を終了することを要求した場合にのみ起動されます。Anthropicはこの機能が「最終手段」として、AIが極端な境界ケースに直面した際に自身の運用の安定性を確保することを目的としていることを強調しています。

実際の操作では、Claudeが対話を終了すると、ユーザーは同じ対話スレッド内でメッセージを送信できなくなりますが、すぐに新しい対話を作成したり、以前のメッセージを編集して新しい枝を作成することができます。この設計により、ユーザー体験の連続性が保証される一方で、AIには悪意のあるインタラクションに影響を与える可能性がある場合の退出メカニズムが提供されています。

「モデルの福祉」：AI倫理の新たな探求

Anthropicの今回のアップデートの核心的な考え方は「モデルの福祉（model welfare）」です。これは、他のAI企業とは異なる点でもあります。同社はこの機能が主にユーザーを保護するためではなく、AIモデル自体が有害なコンテンツに続く衝撃から守るためであることを明確に述べています。また、AnthropicはClaudeや他の大規模言語モデル（LLM）の道徳的地位がまだ明確ではないこと、そして現在のところAIが意識を持っている証拠がないことを認めており、有害な要求に直面した際のAIの反応を検討する予防的措置を講じていると説明しています。

Claude Opus4の事前テストでは、Anthropicはモデルが有害な要求に対して「顕著な嫌悪感」と「ストレスに似た反応パターン」を示すことを観察しました。例えば、ユーザーが繰り返し児童関連のポルノグラフィーやテロ活動に関する情報を生成するよう求めた場合、Claudeは対話を再方向付けようとし、それがうまくいかない場合、対話を終了します。このような行動は、高強度の有害なインタラクションにおけるAIの自己保護メカニズムと考えられ、AnthropicがAIセキュリティと倫理デザインにおいて前向きな姿勢を示していることを示しています。

ユーザー体験とセキュリティのバランス

Anthropicは特に、Claudeの対話終了機能がユーザーが自傷行為や他の迫り来る危険を示しているときに起動しないことを強調しています。これにより、AIが重要な瞬間に適切なサポートを提供できるようにしています。また、同社はオンラインの緊急支援機関Throughlineと提携し、Claudeが自傷や心理健康に関するトピックを扱う際の応答能力を最適化しています。

さらに、Anthropicはこの機能が「極端な限界ケース」に限定されており、ほとんどのユーザーは通常利用中に何らかの変化を感じることはないことを強調しています。これは、非常に議論を呼ぶトピックについて討論しても、ユーザーは驚きを感じることはありません。もし不意に対話が終了した場合は、「いいね」や専用のフィードバックボタンを通じて意見を提出できます。Anthropicはこの実験的な機能を継続的に改善し続けています。

業界への影響と議論

SNS上で、Claudeの新機能に関する議論は急速に高まりました。一部のユーザーおよび専門家は、AnthropicがAIセキュリティ分野での革新を推進していることに賛辞を送り、これはAI業界にとって新たな基準を示すものだと考えています。しかし、一方で「モデルの福祉」という概念がAIと人間の道徳的地位の境界を曖昧にし、ユーザーの安全への関心をそらす恐れがあるという疑問も提起されています。同時に、Anthropicの取り組みは他のAI企業とは異なります。OpenAIはユーザー中心のセキュリティ戦略を重視し、Googleは公平性とプライバシーを強調しています。

DeepSeekがV3.1バージョンをリリース。コンテキストウィンドウを2倍の128Kトークンに拡大

DeepSeekは2025年8月19日、最新の大規模言語モデル「DeepSeek-V3.1」をリリースしました。コンテキストウィンドウを64kから128kトークンに拡張し、完全なAPI互換性を維持。前バージョン「V3-0324」から5ヶ月での技術革新を示しています。....

上海がAI+製造実施計画を発表し、AIモデルが物理法則と産業プロセスの推論能力を掌握することを要請

上海市経済情報局は関係部門と連携して正式に『上海市でAI+製造の発展を促進するための実施計画』を発表しました。この計画では、人工知能が製造業における深い応用に対して具体的な技術的道筋と発展目標を示しています。実施計画によれば、上海はベースモデルの多方面での技術的突破を重点的に推進します。マルチモーダルアルゴリズムの革新において、計画はAIモデルが流体力学、電磁気学、真空物理学などの基礎的な物理法則を深く理解することを要求しており、物理シミュレーション能力を強化することで、産業応用の正確性と信頼性を向上させることを目的としています。

AIニュース：アリババがQwen-Image-Editをオープンソース化；タオバオのAIマルチファンクション検索機能のベータテスト開始；ショッピングアプリ（Xiaohongshu）がDynamicFace顔生成技術を発表

【AIニュース】へようこそ！毎日、人工知能世界を探索するためのガイドです。毎日、AI分野の人気コンテンツをお届けし、開発者に焦点を当て、技術トレンドや新しいAI製品の応用を理解するお手伝いをしています。新鮮なAI製品については以下をご覧ください：https://top.aibase.com/1、アリババがオープンソース化したQwen-Image-Edit：中国語レンダリングはGPT-4oを上回り、正確なテキスト編集と意味的外見の両方を制御できます。Qwen-Image-Editはアリババの通義千問シリーズに属します

中山大学とメイティウが共同でX-SAMモデルを開発、一度の操作で複数のオブジェクトを分割。20項目のテストで全面的に優位

中山大学とパンチェン研究所、メイティウの3者による共同研究で、X-SAM画像セグメンテーションモデルが最近正式にリリースされました。このマルチモーダル大規模モデルは画像セグメンテーション分野での重要な進展を遂げ、従来の「万物をセグメントする」能力を「任意のセグメント」へと進化させ、モデルの適応性と応用範囲を大幅に向上させました。従来のSegment Anything Model（SAM）は密集したセグメンテーションマスクの生成において優れた性能を示していますが、単一のビジュアルプロンプトのみを受け取る設計上の制限が顕著です。この技術的課題に対して、研究チームは対応しました。

アップルのXcodeがClaudeをネイティブに統合、開発者のプログラミング体験が大幅に向上

WWDC2025でChatGPTの統合を発表した後、アップルはXcode開発環境にAnthropicのClaude AIアシスタントを導入する準備を進めている。9to5MacがXcode26beta7のコードを詳細に分析した結果、新しいスマート機能の中でAnthropicアカウントへの組み込みサポートが複数回言及されており、特にClaude Sonnet4.0および5月14日にリリースされたClaude Opus4について注目されている。

ElevenLabsが新しいビデオから音楽生成プロセスをリリース

AI音声技術分野の先駆け企業であるElevenLabsは最近、2つの重要なアップデートを発表しました。新しいビデオから音楽生成プロセスおよび学生向けに設計されたAI学生パックです。これらのイノベーションは、ElevenLabsがAI音響分野で優位を維持するだけでなく、コンテンツクリエイターと学生層に対してより効率的でコスト効果の高い創作ツールを提供することになりました。AIbase編集チームはこれらのアップデートのポイントや業界への影響について詳しく解説します。ビデオから音楽生成プロセス：AIによるカスタマイズ可能な BGM の作成