Récemment, l'université de Stanford a publié une évaluation complète des modèles d'IA clinique. Le DeepSeek R1 est ressorti comme vainqueur avec un taux de victoire de 66 % et un score moyen macro de 0.75, surplombant neuf autres grands modèles avancés. L'intérêt majeur de cette évaluation réside dans le fait qu'elle ne se concentre pas seulement sur les questions des examens de licence médicaux traditionnels, mais explore également les scénarios quotidiens des médecins cliniciens, offrant ainsi une évaluation plus tangible.
L'équipe d’évaluation a conçu un cadre d’évaluation intégré appelé MedHELM, qui comprend 35 tests de référence couvrant 22 sous-catégories de tâches médicales. Ce cadre a été validé par 29 médecins diplômés de 14 spécialités médicales pour garantir sa raisonnable et son utilité pratique. Finalement, les résultats de l’évaluation ont révélé la performance exceptionnelle du DeepSeek R1, suivi de près par o3-mini et Claude3.7Sonnet.
En détail, le DeepSeek R1 a montré une performance solide dans chaque test de référence, avec un écart-type de 0.10, indiquant sa stabilité dans divers tests. Quant à o3-mini, il s'est particulièrement distingué dans les tests de référence liés au soutien à la prise de décision clinique, avec un taux de victoire de 64 % et un score moyen macro de 0.77, arrivant en deuxième position. D'autres modèles tels que Claude3.5 et 3.7Sonnet ont respectivement obtenu des taux de victoire de 63 % et 64 %.
Il convient de souligner que cette évaluation a innové en utilisant une méthode de jury de modèles de langue grande (LLM-jury) pour évaluer les résultats. Les résultats montrent que cette méthode correspond fortement aux scores attribués par les médecins cliniciens, prouvant ainsi son efficacité. De plus, l'équipe de recherche a également mené une analyse coût-bénéfice, révélant que l'utilisation des modèles d'inférence coûte relativement cher, tandis que les modèles non inférenciels sont moins coûteux, ce qui convient à différents types d'utilisateurs.
Cette évaluation fournit non seulement des données précieuses pour le développement de l'IA médicale, mais offre également davantage de possibilités et de flexibilité pour les pratiques cliniques futures.