最近、OpenAIは、医療現場での大規模言語モデル(LLMs)のパフォーマンスと安全性を測定することを目的としたHealthBenchというオープンソース評価フレームワークを発表しました。このフレームワークの開発には、60カ国から26の医学専門分野に属する262人の医師が協力しており、既存の評価基準の不足を補うことを目指しています。特に、実際の応用、専門家の検証、診断の網羅性において。

QQ_1747118377933.png

従来の医療AIの評価基準は通常、狭く構造化された形式に依存しています。たとえば、選択式試験などです。これらの形式は初期評価において役立ちますが、現実的な臨床インタラクションの複雑さや微妙な違いを十分に捉えることはできません。HealthBenchは、より代表性のある評価モードに転じており、5000個のモデルと一般ユーザーまたは医療専門家との複数回の対話から構成されています。各対話はユーザーからの質問で終わり、モデルの返答は医師が書いた特定の評価基準に基づいて採点されます。

QQ_1747118245591.png

HealthBenchの評価フレームワークは、緊急転診、グローバルヘルス、ヘルスデータタスク、背景情報の追求、特定のコミュニケーション、回答の深さ、不確実な状況下での反応という7つの重要なテーマに分けられています。それぞれのテーマは、医療決定とユーザーアクセスにおける異なる挑戦を表しています。標準評価以外にも、OpenAIは2つのバリエーションを導入しました。

1. HealthBench Consensus: 34の医師による確認済みの基準を強調し、モデルの行動の重要な側面を反映します。例えば、緊急ケアの提案やさらなる背景情報の追求などです。

2. HealthBench Hard: より挑戦的なサブセットで、1000個の選ばれた対話を含み、現在の最先端モデルの能力を試すためのものです。

OpenAIは、GPT-3.5Turbo、GPT-4o、GPT-4.1、そして最新のo3モデルなどのさまざまなモデルを評価しました。結果は著しい進歩を示しており、GPT-3.5のスコアは16%、GPT-4oが32%、一方でo3は60%に達しました。特にコスト効率の高いGPT-4.1nanoモデルは、GPT-4oを超えるパフォーマンスを示し、推論コストを25倍削減しました。

評価結果では、モデルは異なるテーマや評価次元においてパフォーマンスに差があることが示されました。緊急転診と特定のコミュニケーションは比較的強力ですが、背景情報の追求や完全性に関しては大きな課題が残っています。OpenAIは、モデルの出力を医師の返答と比較し、支援されていない医師が通常低得点を出す傾向があるものの、特に初期バージョンのモデルでは、モデル生成のドラフトを処理することで進展が見られることも明らかにしました。

HealthBenchはさらに、結果の一貫性を確保するメカニズムも含まれており、OpenAIが超過6万の注釈付きサンプルを使ったメタ評価により、デフォルト評価者としてのGPT-4.1が多くのテーマで個別の医師に劣らず、一貫した評価者としての潜在能力を示しました。

プロジェクト: https://github.com/openai/simple-evals

要点:

- 🩺 OpenAIは、262人の医師の参加と確認を受けた医療分野での大規模言語モデルの評価に特化したHealthBenchを発表しました。

- 🔍 HealthBenchの評価は、7つの重要なテーマをカバーし、5000個のリアルな対話を使用して、モデルの動作に関するより詳細な分析を行います。

- 📊 評価結果はモデル間のパフォーマンスに差があることを示しており、コスト効率の高いGPT-4.1nanoは、臨床ツールとしての可能性を示しました。