スタンフォードの最新評価:DeepSeek R1医療AIモデルがGoogleとOpenAIを上回り高得点を獲得
先日、スタンフォード大学は临床医療AIモデルに関する包括的な評価を発表しました。DeepSeek R1は66%の勝率と0.75のマクロ平均スコアで、9つの最先端の大型モデルの中で頭一つ抜け出し、首位に輝きました。この評価の特色は、従来の医師資格試験問題だけでなく、臨床医の日常業務シナリオにも焦点を当て、現実味ある評価を行った点です。評価チームは、35のベンチマークテストを含む包括的な評価フレームワーク「MedHELM」を作成し、22の医療タスクサブカテゴリーを網羅しています。