微软首席执行官萨蒂亚·纳德拉近日在社交平台宣布,微软正式推出突破性医疗AI系统 MAI-DxO。这款创新系统以其独特的**“模型无关”设计**脱颖而出,能够灵活适配不同厂商和能力的语言模型,从而普遍提升其诊断性能。更令人振奋的是,MAI-DxO不仅能模拟真实医生的诊断流程,还在测试中展现出远超专业医生的诊断准确率,同时大幅降低了医疗诊断的成本。
微软公布的测试数据显示,在针对《新英格兰医学杂志》56例隐藏测试集的对比中,21名拥有十年以上经验的专业医生平均诊断准确率仅为19.9%。然而,MAI-DxO在无预算配置下使用OpenAI的o3模型时,准确率高达81.9%;在集成模式下更是达到了惊人的85.5%,这一表现是专业医生准确率的四倍以上。
MAI-DxO的核心创新在于其模拟了真实医疗团队的协作模式,通过一组具有不同角色的虚拟医生共同解决诊断问题,从而在诊断准确性和成本效益方面取得了显著突破。这支虚拟医生团队包括负责维护和更新鉴别诊断列表的Dr. Hypothesis;每轮选择最具区分度检查的Dr. Test-Chooser;充当监督员、识别偏差并提出挑战性建议的Dr. Challenger;倡导成本意识、优化检查方案的Dr. Stewardship;以及负责幕后质量控制、确保推理一致性的Dr. Checklist。
为了适应不同医疗场景对成本、效率和准确性的需求,MAI-DxO提供了五种集成模式。这些模式涵盖了从仅依赖初始病例摘要进行快速初步诊断的Instant Answer模式,适用于紧急或资源匮乏场景;到仅通过提问诊断、模拟初级诊疗的Question Only模式;引入动态预算控制机制的Budgeted模式;以最大化诊断准确性为目标、处理复杂疑难病例的No Budget模式;以及通过模拟多个医生团队并行工作,进一步提升诊断准确性的Ensemble模式。
伴随MAI-DxO的发布,微软还推出了一项专业的医疗序贯诊断基准SDBench。这个交互式评估框架将《新英格兰医学杂志》中304个具有挑战性的诊断案例转化为逐步诊断场景,为评估人类医生和AI的序贯诊断能力提供了真实素材。在SDBench中,“守门人”智能体模拟信息获取过程,而“法官”智能体则对诊断结果进行基于临床实质的多维度综合评估,同时将成本纳入评估指标,为医疗AI诊断树立了新的行业标准。