AI急诊诊断准确率67%:超越主治医生的现状与未来展望

2026-05-17阅读 0热度 0
ai


急诊室的一场静默对决刚刚结束,其结果可能重塑医疗决策的未来格局。


哈佛医学院与贝斯以色列女执事医疗中心在《科学》期刊上发布了一项关键研究。研究将OpenAI的o1推理模型置于真实急诊场景,面对76份未经处理的原始电子病历,与两位资深人类内科主治医生进行双盲诊断对比。

数据揭示了关键差异:在信息最有限的急诊分诊环节,o1模型的诊断准确率为67.1%,而两位医生的准确率分别为55.3%和50%。


差距在治疗管理方案制定上进一步扩大。o1模型在此项评估中获得89%的评分,而人类医生在使用传统临床资源辅助后,得分中位数仅为34%。


这项研究模拟了真实的临床决策压力。AI模型接收的是急诊室中常见的杂乱、不完整的原始记录,数据未经任何优化处理。后续的盲审结果显示,资深评审医生难以区分诊断结论是来自AI还是人类同行。

论文通讯作者、哈佛医学院AI实验室负责人Arjun Manrai指出:“我们在几乎所有基准测试中验证了该模型,其表现超越了既往所有模型和医生基线。”这标志着医疗AI推理能力达到了一个新的临界点。

真实战场:信息匮乏时的决策优势


这项研究的核心价值在于它触及了急诊医学的本质挑战:如何在信息不足的初期进行有效决策。研究对比了三个临床决策节点——急诊分诊、医生首诊、以及收治入院或转入ICU的决策时刻。

结果显示,随着临床信息的补充,AI与人类医生的诊断表现均有所提升。但正是在信息最稀缺的初始阶段,AI展现出了更明显的优势。此时,生命体征可能尚未稳定,实验室检查结果还未回报,医生必须在碎片化信息中进行快速推理。AI模型则显示出在不确定性中高效整合有限线索的潜力。


至入院决策阶段,o1的准确率上升至81.6%,两位医生也分别提升至78.9%和69.7%。这一趋势表明,AI在辅助人类处理复杂信息、快速生成鉴别诊断列表方面具有明确价值。


医生的反驳与AI的盲区

研究结论也引发了临床一线的讨论。有急诊科医生指出,对比对象是内科医生而非专科急诊医生,这在一定程度上限制了结论的普适性。

更关键的质疑在于,急诊医学的首要目标是快速识别危及生命的紧急状况,而非立即给出最终诊断。资深急诊医生通过观察患者面色、听诊呼吸音、评估疼痛反应等非文本信息,能在数秒内形成基于经验的“临床直觉”。这种融合多感官信息的综合判断能力,是目前纯文本AI模型无法模拟的。


研究团队对此有清晰认知。Manrai表示,团队正在推进AI处理影像等多模态信息的能力,并观察到快速进展,但距离全面的临床部署仍有距离。AI目前尚无法“看见”患者的脸色或“感知”其痛苦,这正是人类医生保持其不可替代性的关键领域。

历史的教训:从“取代”到“增强”

关于AI取代医生的预言,已有历史经验可供参照。2016年,深度学习先驱Geoffrey Hinton曾预测放射科医生将在五年内被AI超越。


然而现实发展路径截然不同。以梅奥诊所为例,其放射科医生团队规模自2016年以来增长了55%。AI并未取代医生,反而通过提升影像分析与诊断效率,催生了更大的市场需求。这印证了“杰文斯悖论”——技术进步提升效率,反而可能增加该资源的总消耗量。

Hinton后来也修正了观点,认为未来将是“AI与放射科医生组合”的协同模式。哈佛研究的作者们显然借鉴了这一历史经验。他们强调,核心发现并非“AI可替代医生”,而是“AI在有限信息下的推理能力已达到值得进行严格临床试验的水平”。

共同通讯作者Adam Rodman表述得更为直接:“目前AI诊断缺乏正式的问责框架。患者需要的是由人来引导他们度过关键的医疗决策,面对艰难的治疗选择。”

权力重组:走向三方共治的新范式

那么,这项研究真正预示的变革是什么?或许并非简单的胜负,而是医疗决策权结构的静默重组。

数据显示,AI在临床中的应用正快速渗透。超过80%的美国医生已在工作中使用AI工具,其中17%用于辅助诊断,20%的临床医生曾向大语言模型寻求“第二意见”。

将这些数据与哈佛的研究结果结合,一个清晰的未来图景正在形成:传统的“患者-医生”二元决策模式,正在向“医生-患者-AI”三方协作的新范式演进。

未来的急诊流程可能演变为:患者抵达后,AI系统率先快速扫描电子病历,生成初步鉴别诊断与风险评估;接诊医生则结合临床观察、体格检查及医患沟通,对AI建议进行审核、修正并做出最终决策;患者也能在更充分的信息支持下,参与治疗方案的讨论。

Rodman预测,未来的医疗任务将分化为三类:一部分人类持续做得更好,一部分AI持续做得更好,大部分则需要人机协作以实现能力增强。这类似于自动驾驶的分级:当前医疗AI可能处于L2(辅助决策)向L3(条件自动化)过渡的阶段,其在文本推理上已展现实力,但在融合了视觉、听觉、触觉的完整临床场景中,仍需人类医生的感官与直觉作为关键的“安全冗余”。

悬而未决的核心:责任与依赖

在所有乐观展望之下,两个核心问题依然悬而未决:责任界定与能力依赖。

如果发生AI误诊,责任链条将异常复杂——责任在于采纳建议的医生、开发模型的AI公司,还是引入系统的医院?反之,如果医生否决了AI的正确建议并导致不良后果,是否会因“忽视AI警告”而承担更重责任?全球范围内尚未建立起成熟的AI医疗问责框架。

另一潜在风险是“自动化偏误”或临床能力退化。当医生习惯于依赖高准确率的AI输出,其独立的临床推理能力是否会像依赖GPS导航的司机一样逐渐生疏?如何确保AI是“增强”而非“替代”人类的专业判断,是设计任何辅助系统时必须解决的伦理与实操难题。

哈佛的这项研究,如同一块投入湖面的巨石。它没有提供所有答案,但清晰地标定了一个拐点:AI在核心医疗推理任务上,已不再是概念演示,而是达到了可与人类专家同台竞技、甚至在某些环节表现更优的实用水平。真正的变革,或许并非急诊室里医生的减少,而是医生、患者与AI将共同组成一个更强大、但也更需智慧驾驭的新联盟。未来的急诊室,注定是一个协同决策的战场。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策