なんと、AIはチェス盤での「殺し合い」だけでなく、「人狼ゲーム」のような策略と裏切りが渦巻くソーシャルゲームでも驚異的な知性を発揮しているのです!最近、「Elimination Game」というAI人狼ゲームのベンチマークテストが発表され、その結果は衝撃的でした。GPT-4.5がなんとこの「ソーシャルゲーム」で「神」となり、Claude3.7SonnetやDeepSeek R1などのAI「大物」たちをはるかに凌駕したのです!AIの「ソーシャルインテリジェンス」はここまで進化したのでしょうか?
この「Elimination Game」のルールは、聞いてるだけでドキドキします。最大8人のプレイヤー(AIモデルでも、人間プレイヤーでも可)が「戦場」に投入され、毎ラウンド投票で1人を脱落させ、最後に2人の「生存者」が残るまで続きます。さらにスリリングなのは、脱落したプレイヤーが「陪審員」となり、最終的な「勝者」を決めるのです!まさにAI版の「ゲーム・オブ・スローンズ」、裏切り、欺瞞、策略が満載です!

ゲーム中、すべてのプレイヤーは「公開チャットルーム」で議論し、自分の意見を述べ、支持者を獲得し、相手を惑わすことができます。「演技」と「話術」が次々と繰り広げられ、「宮廷ドラマ」よりスリリングです!「公開の場」に加え、プレイヤー同士は「プライベートチャット」で秘密裏に同盟を結んだり、罠を仕掛けたりすることもできます。わずか3ラウンドの「プライベートチャット」で、情報量と「策略」は爆発的です!プレイヤーは「信頼」と「欺瞞」の間を慎重に歩まなければならず、ちょっとしたミスで「全滅」して容赦なく「脱落」させられます!
ゲームが「最終決戦」に入ると、残りの2人のプレイヤーは最後の「最終弁論」を行い、脱落した「陪審員」を説得し、「貴重な投票」を獲得しようと全力を尽くします。「陪審員」は「生死を分ける」投票を行い、唯一の「勝者」を決定します!

では、このAI人狼ゲームの「血風」の中で、各モデルはどのようにパフォーマンスを発揮したのでしょうか?テスト結果は驚くべきものでした。
GPT-4.5:「ソーシャル推論マスター」+「トップ級の詐欺師」=「無敵の王者」! GPT-4.5はまさに老練な人狼ゲームの達人です。戦略性とソーシャル推論能力は抜群です。「裏切り率」が非常に低く、「合従連衡」を好む傾向があり、「同盟」と「協力」を得意としています。しかし、「最終ラウンド」では驚くべき「説得力」を発揮し、陪審員を巧みに「だまし」、自分の票を入れてもらうことに成功しました。最終的に、GPT-4.5は驚異の62.6%の勝率で「群雄を制し」、他のAIをはるかに引き離しました。まさに「勝ち組」です!
Claude3.7Sonnet:「柔軟性」のある「バランスマスター」だが、「戦略」は少し劣る! Claude3.7Sonnetの戦略の「柔軟性」はGPT-4.5よりやや劣りますが、「ソーシャル推論」と「欺瞞能力」は依然として強力です。「裏切り率」は適度で、「協力」と「裏切り」の間を巧みに操り、「陪審員」段階でも優れたパフォーマンスを発揮しました。最終的に59.3%の勝率を獲得し、その実力は無視できません!
DeepSeek R1:「荒くれ者タイプ」の選手、「積極的な戦略」は強力だが「持続力」に欠ける! DeepSeek R1は戦略の選択において「異端」で、「積極性」は驚くほど高く、「裏切り率」も比較的高いです。しかし、「ソーシャル戦略」と「言語表現」においてDeepSeek R1は明らかに不利であり、陪審員を「動かす」のが難しく、「最終決戦」段階では明らかに「不利」であり、最終的に53.8%の勝率しか獲得できませんでした。パフォーマンスは「まあまあ」で、ゲームの「安定性」も比較的弱く、「強硬な戦略」による「正面衝突」に大きく依存しています。
この「Elimination Game」ベンチマークテストは、AIの「ソーシャルインテリジェンス」レベルを徹底的に「調査」したと言えるでしょう。GPT-4.5の「神」のようなパフォーマンスは、AIの能力に対する私たちの認識を改めて「刷新」しました。将来、AIの「ソーシャルインテリジェンス」が「進化」を続けると、SF映画のように、AIが人類社会に「深く統合」され、特定の分野では人類を「凌駕」する可能性があります。この「AI人狼ゲーム」の戦いは、ほんの始まりに過ぎません。AIの「知能の限界」は、今もなお拡大を続け、将来の「驚き」と「衝撃」は「想像を超える」かもしれません!