Récemment, OpenAI a publié un cadre d'évaluation open source nommé HealthBench, conçu pour mesurer la performance et la sécurité des modèles de langue larges (MLLs) dans des scénarios médicaux réels. Le développement de ce cadre a été soutenu par 262 médecins issus de 60 pays et de 26 spécialités médicales, avec l'objectif de combler les lacunes des normes d'évaluation existantes, notamment en termes d'applications réelles, de validation par des experts et de couverture diagnostique.
Les normes actuelles d'évaluation des IA médicales se basent généralement sur des formats étroits et structurés, tels que des examens à choix multiples. Bien que ces formats soient utiles pour une première évaluation, ils ne peuvent pas capturer pleinement la complexité et les subtilités des interactions cliniques réelles. HealthBench adopte donc un modèle d'évaluation plus représentatif, comprenant 5000 dialogues multi-tours entre des modèles et des utilisateurs ordinaires ou des professionnels de santé. Chaque dialogue se termine par une question posée par l'utilisateur, et les réponses du modèle sont évaluées selon des critères spécifiques rédigés par des médecins.
Le cadre d'évaluation HealthBench est divisé en sept thèmes clés, incluant les transferts d'urgence, la santé mondiale, les tâches liées aux données de santé, la recherche de contexte, la communication ciblée, la profondeur des réponses et la gestion des situations incertaines. Chaque thème représente des défis différents dans les décisions médicales et les interactions avec l'utilisateur. En plus de l'évaluation standard, OpenAI a également introduit deux variantes :
1. HealthBench Consensus : met l'accent sur 34 standards validés par des médecins, visant à refléter des aspects clés du comportement des modèles, comme la recommandation de soins d'urgence ou la recherche de plus amples informations.
2. HealthBench Hard : un sous-ensemble plus exigeant contenant 1000 dialogues sélectionnés, destiné à tester les capacités des modèles de pointe actuels.
OpenAI a évalué divers modèles, y compris GPT-3.5Turbo, GPT-4o, GPT-4.1 et le modèle o3 plus récent. Les résultats montrent des progrès significatifs : GPT-3.5 obtient 16 %, GPT-4o 32 %, tandis que o3 atteint 60 %. En particulier, le modèle GPT-4.1nano, plus petit et plus économique, dépasse GPT-4o tout en réduisant les coûts de raisonnement de 25 fois.
Les résultats de l'évaluation montrent également des différences de performance entre les modèles sur divers thèmes et dimensions d'évaluation. Les transferts d'urgence et la communication ciblée sont relativement forts, tandis que la recherche de contexte et l'intégralité font face à de plus grands défis. OpenAI a également comparé les sorties des modèles avec les réponses des médecins, constatant que les médecins non assistés génèrent souvent des réponses ayant un score plus bas, mais qu'ils progressent en manipulant les brouillons générés par les modèles, surtout avec les versions initiales des modèles.
HealthBench inclut également des mécanismes pour évaluer la cohérence des modèles, afin d'assurer la fiabilité des résultats. Une méta-évaluation menée sur plus de 60 000 exemples annotés montre que GPT-4.1, en tant que juge par défaut, se comporte presque aussi bien que les médecins individuels dans la plupart des thèmes, démontrant son potentiel en tant qu'évaluateur cohérent.
Projet : https://github.com/openai/simple-evals
Points clés :
- 🩺 OpenAI lance HealthBench, axé sur l'évaluation des MLL dans le domaine médical, avec la participation et la validation de 262 médecins.
- 🔍 L'évaluation de HealthBench couvre sept thèmes clés grâce à 5000 dialogues réels, fournissant une analyse plus fine du comportement des modèles.
- 📊 Les résultats montrent des performances variées entre les modèles ; GPT-4.1nano, à faible coût, se distingue particulièrement, montrant le potentiel des modèles comme outils cliniques.