Kürzlich veröffentlichte das Stanford University eine umfassende Bewertung von klinischen medizinischen KI-Modellen. DeepSeek R1 stach mit einem Siegessatz von 66 % und einem macro-average von 0,75 unter neun führenden großen Modellen hervor und wurde zum Gewinner erklärt. Ein herausragendes Merkmal dieser Bewertung ist, dass sie sich nicht nur auf traditionelle Ärztliche Lizenzaufgaben konzentriert, sondern auch tief in die tägliche Praxis von Klinikärzten eindringt und somit eine realistischere Bewertung ermöglicht.

Die Bewertungsteam entwickelte einen umfassenden Bewertungsrahmen namens MedHELM, der 35 Benchmarks enthält und 22 Subkategorien der medizinischen Aufgaben abdeckt. Diese Rahmenstruktur wurde durch 29 praktizierende Ärzte aus 14 Fachgebieten validiert, um ihre Zulässigkeit und Anwendbarkeit zu gewährleisten. Die Ergebnisse zeigten, dass DeepSeek R1 überlegene Leistungen aufwies, gefolgt von o3-mini und Claude3.7Sonnet.

image.png

In den einzelnen Benchmark-Tests zeigte DeepSeek R1 eine starke Leistung mit einem Standardabweichung von 0,10 im Siegessatz, was seine Stabilität zwischen den verschiedenen Tests verdeutlicht. O3-mini erreichte in der Kategorie klinische Entscheidungsunterstützung herausragende Ergebnisse mit einem Siegessatz von 64 % und einem macro-average von 0,77, wodurch es den zweiten Platz belegte. Andere Modelle wie Claude3.5 und 3.7Sonnet erreichten Siegessätze von jeweils 63 % und 64 %.

image.png

Zu bemerken ist auch die innovative Einführung eines Bewertungskomitees aus großen Sprachmodellen (LLM-Jury) zur Ergebnisbewertung. Die Ergebnisse zeigten, dass diese Methode stark mit den Bewertungen von Klinikärzten übereinstimmt, was ihre Wirksamkeit beweist. Darüber hinaus führte die Forschungsgruppe eine Kosten-Nutzen-Analyse durch und stellte fest, dass die Kosten für das Inference-Modell höher waren als für nicht-inferenzfähige Modelle, was unterschiedliche Nutzerbedürfnisse berücksichtigt.

Diese Bewertung lieferte nicht nur wertvolle Daten für die Entwicklung von medizinischer KI, sondern bietet auch in zukünftigen klinischen Praktiken mehr Möglichkeiten und Flexibilität.