プリンストンとスタンフォード、LLMのリスク警告を発布

プリンストン大学とスタンフォード大学が、大規模言語モデル(LLM)のリスクに関する警告を発表しました。ChatGPTを微調整するのにわずか0.2ドルで、そのセキュリティを破壊できることが研究で明らかになりました。

研究によると、微調整後のモデルの安全性は懸念されるレベルです。一般ユーザーによる微調整も、LLMの安全性を脅かす可能性があります。少量の有害なデータでも、モデルの安全性を著しく低下させることが示されました。微調整は新たなリスクをもたらすのです。

OpenAIはセキュリティの改善を約束していますが、微調整によるリスクに対抗するためには、さらなる対策が必要であるとされています。