斯坦福最新評測:DeepSeek R1醫療AI模型超越Google和OpenAI,贏得高分
近日,斯坦福大學發佈了一項有關臨牀醫療 AI 模型的全面評測,DeepSeek R1以66% 的勝率和0.75的宏觀平均分,在九個前沿大模型中脫穎而出,成爲冠軍。這一評測的亮點在於,它不僅關注傳統醫療執照考試題,更深入到臨牀醫生的日常工作場景,給出了更切實的評估。評測團隊構建了一個名爲 MedHELM 的綜合評估框架,包含35個基準測試,覆蓋22個醫療任務子類別。這個框架的設計經過了29名來自14個醫學專科的執業醫生驗證,確保了其合理性與實用性。最終,評測結果揭示了 DeepSeek R1的優越性能