AI医学推理能力超越人类医生？哈佛、斯坦福：o1-preview 模型诊断准确率高达80%

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Dec 24, 2024

433

人工智能在医疗领域的应用再次迎来重大突破!一项由哈佛大学、斯坦福大学等多所顶尖机构联合开展的研究显示，OpenAI 的 o1-preview 模型在多项医学推理任务中表现出惊人的能力，甚至超越了人类医生。这项研究不仅评估了该模型在医学多项选择题基准测试中的表现，更着重考察了其在模拟真实临床场景下的诊断和管理能力，结果令人瞩目。

研究人员通过五个实验，对 o1-preview 模型进行了全面评估，包括鉴别诊断生成、展示诊断推理过程、分诊鉴别诊断、概率推理和管理推理。这些实验均由医学专家使用已验证的心理测量学方法进行评估，旨在将 o1-preview 的表现与此前人类对照组和早期大型语言模型基准进行对比。结果显示，o1-preview 在鉴别诊断生成以及诊断和管理推理的质量方面取得了显著进步。

在评估 o1-preview 生成鉴别诊断的能力时，研究人员使用了《新英格兰医学杂志》（NEJM）发布的临床病理讨论会(CPC)病例。结果显示，该模型在78.3% 的病例中给出的鉴别诊断包含了正确诊断，在52% 的病例中，首个诊断即为正确诊断。更为惊人的是，o1-preview 在88.6% 的病例中给出了准确或非常接近的诊断，而之前的 GPT-4模型在相同病例中的这一比例为72.9%。此外，o1-preview 在选择下一步诊断测试方面也表现出色，在87.5% 的病例中选择了正确的测试，11% 的病例中选择的测试方案被认为是有帮助的。

为了进一步评估 o1-preview 的临床推理能力，研究人员使用了 NEJM Healer 课程中的20个临床病例。结果显示，o1-preview 在这些病例中的表现明显优于 GPT-4、主治医生和住院医师，在78/80的案例中获得了完美的 R-IDEA 评分。R-IDEA 评分是一个用于评估临床推理记录质量的10分制量表。此外，研究人员还通过 “Grey Matters” 管理案例和 “Landmark” 诊断案例评估了 o1-preview 的管理和诊断推理能力。在 “Grey Matters” 案例中，o1-preview 的得分显著高于 GPT-4、使用 GPT-4的医生和使用传统资源的医生。在 “Landmark” 案例中，o1-preview 的表现与 GPT-4相当，但优于使用 GPT-4或传统资源的医生。

然而，研究也发现 o1-preview 在概率推理方面的表现与之前的模型相似，并未取得明显改进。在某些情况下，该模型在预测疾病概率时不如人类。研究人员还指出，o1-preview 的一个局限是倾向于冗长，这可能在一定程度上提高了其在某些实验中的得分。此外，该研究主要关注模型性能，而未涉及人机交互，因此未来需要进一步研究 o1-preview 如何增强人机交互，以开发更有效的临床决策支持工具。

尽管如此，这项研究仍表明，o1-preview 在需要复杂批判性思维的任务（如诊断和管理）中表现出色。研究人员强调，医学领域的诊断推理基准正在迅速饱和，因此需要开发更具挑战性和现实性的评估方法。他们呼吁在真实临床环境中对这些技术进行试验，并为临床医生与人工智能的协作创新做好准备。此外，还需建立健全的监督框架，以监控人工智能临床决策支持系统的广泛实施。

论文地址：https://www.arxiv.org/pdf/2412.10849

蚂蚁百灵发布万亿级思考模型 Ring-2.6-1T，支持推理强度自定义

蚂蚁百灵发布万亿级旗舰思考模型Ring-2.6-1T，专为Agent工作流、工程开发及科研分析等复杂场景设计。该模型引入可调节的Reasoning Effort机制，打破推理能力与资源消耗的固定配比，平衡成本与效率。提供high与xhigh两种推理模式，其中high模式针对高频Agent协作优化，具备低延迟特点。

AI日报：OpenAI发布三款实时语音模型；苹果首款AI硬件曝光；美团入局AI社交赛道

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://app.aibase.com/zh1、OpenAI发布三款实时语音模型，针对推理对话、实时翻译和实时转录OpenAI推出了三款新型实时语音模型，旨在为开发者提供更先进的语音应用解决方案。8、OpenAI发布CodexChrome扩展程序深度集成浏览器环境OpenAI推出CodexforChrome浏览器扩展，旨在优化浏览器内的工作流，提升网页任务处理效率，并推动Codex应用生态的增长。

OpenAI推出GPT-5.5-Cyber预览版面向安全团队限量开放

OpenAI于周四推出GPT-5.5-Cyber预览版，仅限审核后的安全团队使用。该模型是GPT-5.5的网络安全专用版，通过定向训练放宽安全限制，使授权团队能更高效进行漏洞识别、补丁验证和恶意软件分析，而非增强攻防能力。此举紧随Anthropic发布Claude My之后。

商汤科技推出 SenseNova 6.7 Flash-Lite，消耗大幅降低 60%

商汤科技发布新一代轻量化多模智能体模型SenseNova6.7-Lite，专为满足真实世界流需求设计。该模型采用生多模架构，能直接理解复杂布局、文档结构和财务图表，实现“看、想、做”一体化，提升数据分析、深度调研和PPT生成等任务成功率。技术上，它取消视觉转中间层，以更小参数量实现智能体能力跨越式提升。

阿里妈妈重磅推出超级经营智能体引擎 “AI 万相”

阿里妈妈推出“AI万相”超级经营智能体引擎，标志着2026年AI营销进入智能体时代。该引擎由万相智识、万相智品、万相智造和万相智投四大智能体组成，能高效协同，商家仅需简单指令即可快速完成电商经营任务，为品牌增长带来颠覆性变革。

AI新闻资讯

最新AI日报

AI 商用·开源产品库

AI 产品排行榜

AI产品提交

AI工具导航

GEO 品牌全景分析

GEO 品牌得分检测

GEO 排名查询

AI 对话问题挖掘

GEO 推广链接检测

GEO排名优化系统源码

GEO 排名优化服务

MCP服务端

MCP客户端

MCP教程与实践

MCP排行榜

MCP服务提交

MCP实验场

MCP服务调试器

大模型API聚合平台

模型库

模型供应商

大模型排行榜

大模型选型对比

大模型费用计算器

大模型竞技场

模型个人电脑配置检测器

模型部署服务器配置计算器

AI医学推理能力超越人类医生？哈佛、斯坦福：o1-preview 模型诊断准确率高达80%

AIbase基地

本文来自AIbase日报

相关AI新闻推荐

蚂蚁百灵发布万亿级思考模型 Ring-2.6-1T，支持推理强度自定义

微软与 OpenAI 的合作内幕：曾担心 “被投奔” 亚马逊

国产算力新突破！海光DCU与腾讯混元Hy3 大模型完成深度适配

​阿里千问 AI 眼镜 S1 升级：主动服务与全球首个 3D 显示功能来袭

AI日报：OpenAI发布三款实时语音模型；苹果首款AI硬件曝光；美团入局AI社交赛道

OpenAI发布Codex Chrome扩展程序 深度集成浏览器环境

OpenAI推出GPT-5.5-Cyber预览版 面向安全团队限量开放

​商汤科技推出 SenseNova 6.7 Flash-Lite，消耗大幅降低 60%

阿里妈妈重磅推出超级经营智能体引擎 “AI 万相”

上海开启AI安全监管试点

相关AI新闻推荐

蚂蚁百灵发布万亿级思考模型 Ring-2.6-1T，支持推理强度自定义

微软与 OpenAI 的合作内幕：曾担心 “被投奔” 亚马逊

国产算力新突破！海光DCU与腾讯混元Hy3 大模型完成深度适配

​阿里千问 AI 眼镜 S1 升级：主动服务与全球首个 3D 显示功能来袭

AI日报：OpenAI发布三款实时语音模型；苹果首款AI硬件曝光；美团入局AI社交赛道

OpenAI发布Codex Chrome扩展程序 深度集成浏览器环境

OpenAI推出GPT-5.5-Cyber预览版 面向安全团队限量开放

​商汤科技推出 SenseNova 6.7 Flash-Lite，消耗大幅降低 60%

阿里妈妈重磅推出超级经营智能体引擎 “AI 万相”

上海开启AI安全监管试点

阿里千问 AI 眼镜 S1 升级：主动服务与全球首个 3D 显示功能来袭

OpenAI发布Codex Chrome扩展程序深度集成浏览器环境

OpenAI推出GPT-5.5-Cyber预览版面向安全团队限量开放

商汤科技推出 SenseNova 6.7 Flash-Lite，消耗大幅降低 60%

阿里千问 AI 眼镜 S1 升级：主动服务与全球首个 3D 显示功能来袭

OpenAI发布Codex Chrome扩展程序深度集成浏览器环境

OpenAI推出GPT-5.5-Cyber预览版面向安全团队限量开放

商汤科技推出 SenseNova 6.7 Flash-Lite，消耗大幅降低 60%