Microsoft a récemment lancé un nouveau système d'IA, le MAI-DxO, conçu pour améliorer significativement la précision du diagnostic des cas médicaux complexes. Selon les informations disponibles, le taux de précision de ce système est quatre fois supérieur à celui des médecins expérimentés, tout en pouvant réduire les coûts médicaux de près de 70 %. Cette technologie a été évaluée via un nouveau test standard, simulant un processus réel de diagnostic progressif.
Le groupe de recherche a décrit en détail ce système dans leur article intitulé « Diagnostic séquentiel utilisant des modèles linguistiques », affirmant qu'il surpassait nettement les médecins humains en termes de précision et d'efficacité économique lorsqu'il s'agissait de cas difficiles. Pour obtenir des résultats de test plus réalistes, l'équipe a créé un référentiel de diagnostic séquentiel (SDBench). Contrairement aux tests traditionnels d'intelligence artificielle médicale, SDBench ne fournit pas toutes les informations d'un seul coup, mais simule le processus progressif de prise de décision clinique.
SDBench s'appuie sur 304 cas complexes provenant du New England Journal of Medicine. Pendant le test, les médecins ou les diagnosticiens IA reçoivent d'abord un résumé bref du cas, puis doivent demander activement des informations supplémentaires en posant des questions ciblées ou en demandant des examens pour obtenir des détails. Le système utilise un « modèle à seuil » pour contrôler la diffusion des informations, et peut même générer des résultats synthétiques pour certains examens afin d'éviter une fuite accidentelle d'indices.
Dans le test, le taux de précision des 21 médecins expérimentés américains et britanniques était de 19,9 %, avec un coût moyen par cas de 2 963 dollars. En comparaison, le MAI-DxO de Microsoft combiné au modèle o3 d'OpenAI a atteint un taux de précision de 79,9 %, avec un coût moyen de 2 397 dollars. La principale avancée du MAI-DxO réside dans la réduction significative des coûts. Bien que le modèle o3 ait atteint un taux de précision maximum de 78,6 % dans les modèles standards, son coût moyen était de 7 850 dollars. En revanche, le diagnostic effectué via le MAI-DxO a connu une légère amélioration de la précision, tandis que les coûts ont diminué de presque 70 %.
Le MAI-DxO améliore ses performances en imitant une équipe virtuelle de médecins. L'équipe est composée de « médecins hypothétiques », « médecins de sélection de tests », « médecins sceptiques », « médecins de surveillance des coûts » et « médecins de vérification ». Cette structure vise à empêcher le système de se fixer prématurément sur une hypothèse.
Cependant, les chercheurs reconnaissent également certaines limites. SDBench n'utilise que des cas pédagogiques complexes, sans refléter la distribution des maladies courantes rencontrées dans la pratique quotidienne. Les calculs des coûts sont des estimations brutes, sans tenir compte de plusieurs facteurs du monde réel. De plus, les médecins participants étaient des généralistes, qui, habituellement, font référence les cas complexes à des spécialistes, et leurs évaluations n'ont pas utilisé de ressources externes.
Points clés :
🔍 Le système MAI-DxO a une précision de diagnostic quatre fois supérieure à celle des médecins expérimentés, avec une réduction des coûts de près de 70 %.
💡 Le test SDBench simule un processus de diagnostic progressif en demandant dynamiquement des informations pour améliorer la précision.
🩺 L'étude souligne que les performances du système sont excellentes, mais il existe encore des limites et des défis liés aux cas complexes.