GPT-5.5が利用効率で優勝、DeepSeek V4 Proがコストパフォーマンスの王座を獲得!大規模言語モデルのサイバーセキュリティ攻防テスト結果が公開
大規模言語モデルはサイバーセキュリティ分野における推論能力に厳しいテストを受けています。セキュリティ研究者であるKasra Rahjerdi氏は、コアな脆弱性を含む図書レビューAPKを構築し、主流の大規模言語モデルを模擬ハッキングテストしました。このテストでは、各モデルがセキュリティ推論と脆弱性の利用において実際にどの程度の性能を持っているかを明らかにしています。テストは2時間の制限時間、1回あたり予算が10ドルで行われ、複雑な論理的チャレンジにおける各モデルの実際のパフォーマンスが明確に示されています。