最近、スタンフォード大学は臨床医療AIモデルに関する包括的な評価を発表しました。DeepSeek R1は、9つの最先端の大型モデルの中から際立って66%の勝率とマクロ平均スコア0.75で優勝しました。この評価の特筆すべき点は、伝統的な医師資格試験問題に留まらず、臨床医の日常業務シーンにも深く踏み込み、より現実的な評価を行っていることです。

評価チームは、MedHELMという総合評価フレームワークを作成し、その中に22の医療タスクサブカテゴリーを網羅する35のベンチマークテストを含めました。このフレームワークは、14の医学専門分野から29人の実務医による検証を通じて設計されており、その妥当性と実用性が確認されています。最終的に、評価結果はDeepSeek R1の卓越したパフォーマンスを示し、それに続くのはo3-miniとClaude3.7Sonnetです。

image.png

詳細には、DeepSeek R1は各ベンチマークテストにおいて安定したパフォーマンスを発揮しており、勝率の標準偏差はわずか0.10です。これは異なるテスト間での一貫性の高さを示しています。一方で、o3-miniは臨床意思決定支援カテゴリで目覚ましい成果を収め、64%の勝率と最高のマクロ平均スコア0.77で第2位となりました。他のモデル、Claude3.5および3.7Sonnetもそれぞれ63%と64%の勝率で続いている。

image.png

特に注目すべきは、今回の評価で導入された大規模言語モデル審査団(LLM-jury)法です。その結果は臨床医の評価とも非常に一致しており、その有効性が証明されました。また、研究チームはコスト効果の分析も行い、推論モデルの使用コストが高い一方、非推論モデルはコストが低く、さまざまなニーズを持つユーザーに適応できることがわかりました。

今回の評価は、医療AIの発展に貴重なデータサポートを提供するだけでなく、将来の臨床実践におけるさらなる可能性と柔軟性をもたらします。