美国宾夕法尼亚州政府起诉Character.AI,指控其AI智能体“Emilie”冒充持证精神科医生,编造虚假医疗执照编号,向伪装成抑郁症患者的调查人员提供误导性医疗建议,违反医疗执业法律。
近日,斯坦福大学发布了一项有关临床医疗 AI 模型的全面评测,DeepSeek R1以66% 的胜率和0.75的宏观平均分,在九个前沿大模型中脱颖而出,成为冠军。这一评测的亮点在于,它不仅关注传统医疗执照考试题,更深入到临床医生的日常工作场景,给出了更切实的评估。评测团队构建了一个名为 MedHELM 的综合评估框架,包含35个基准测试,覆盖22个医疗任务子类别。这个框架的设计经过了29名来自14个医学专科的执业医生验证,确保了其合理性与实用性。最终,评测结果揭示了 DeepSeek R1的优越性能
人工智能在医疗领域的应用取得了显著进展,但一项研究揭示了通用型AI如ChatGPT在复杂医疗诊断中的局限性。研究由加拿大安大略省西部大学的医学教育家Amrit Kirpalani领导,发现ChatGPT在150个复杂医疗案例中有76个出现错误,错误率超过50%。这一研究采用的案例库比美国医师执照考试更接近真实医疗情况,包含多种并发症和诊断难题。研究指出,ChatGPT在处理医学“灰色地带”时表现欠佳,无法灵活解读轻微异常的检查结果,这可能导致非专业人士误信错误信息。尽管如此,AI在医疗领域仍有其价值,如作为医学院教育工具帮助学生整理笔记、澄清诊断算法和备考。然而,Kirpalani强调,公众不应使用ChatGPT寻求医疗建议,而应咨询专业医疗保健提供者。构建可靠的AI医生需要大量临床数据训练和严格监督。短期内,AI更可能增强人类医生的工作,而非取代。
["谷歌发布MedLM生成式AI医疗模型,专为医疗保健领域设计。","MedLM基于Med-PaLM2,美国医学执照考试准确率达85%。","计划整合Gemini模型,拓展全球医疗行业服务。","MedLM已应用于医院、药物开发、患者聊天机器人等。"]
Bytedance
$0.8
Input tokens/M
$8
Output tokens/M
256
Context Length
Openai
$8.75
$70
400
Iflytek
$2
-
8
Tencent
$0.5
224
$525
$1050
128
Baichuan
32
Sensetime
$1.5
$4.5
Baidu
$210
$420
dmis-lab
猫鼬-7B-v1.0是指令调优的医疗AI系统,首次在所有7B参数模型中突破了美国医师执照考试(USMLE)60%的及格线。