顶级医学AI测评：大模型诊断能力超越人类医生

2026-05-11阅读 0热度 0

大模型

当医学检查无法明确病因时，那种不确定性令人倍感压力。未来，为你提供关键“第二诊疗意见”的，很可能是一位基于大语言模型的人工智能临床顾问。

这一前景已获得严肃学术研究的支持。近期发表于《科学》期刊的一项实战研究揭示，在模拟真实急诊环境的综合测试中，人工智能的临床推理能力已超越资深医生。

研究团队设计了六项涵盖历史经典与现代急诊病例的综合性评估，让最新的大语言模型与数百名各级别执业医师同台竞技。结果显示，在诊断推理与医疗管理等核心临床任务上，大模型的表现全面优于人类专家。

挑战65年医学金标准

评估医疗诊断系统的智能水平，需要一个公认的基准。自1959年起，《新英格兰医学杂志》发布的“临床病理学讨论会”复杂病例，便被视为诊断领域的终极试金石。这些病例多为诊断陷阱与罕见病理交织的疑难杂症。

过去数十年，从贝叶斯系统到基于规则的专家系统，各类诊断工具挑战这些病例均未取得突破。如今，随着大语言模型在专业考试与逻辑推理上展现强大能力，其临床诊断潜力成为新的焦点。

本次研究直接引入数百名真实医生作为基准线，全面检验最新o1-preview模型的临床硬实力。

面对《新英格兰医学杂志》的经典病例，o1-preview在鉴别诊断环节表现卓越。两位资深内科医生对其诊断列表进行独立盲评，结果高度一致。

计分结果超出预期：在78.3%的病例中，模型成功将正确答案纳入鉴别诊断列表；更有52%的病例，其首推诊断即为正确答案。若将评估范围放宽至“具有潜在帮助或高度接近”的诊断，模型准确率高达97.9%。

与上一代GPT-4的对比凸显了技术进步。在同一批70个历史对照病例中，GPT-4准确率为72.9%，而o1-preview提升至88.6%，在绝大多数病例上保持领先。

在评估诊断检查项目选择能力时，面对136个高难度病例，o1-preview在87.5%的情况下精准选择了符合患者需求的正確项目，另有11%的建议被判定为有实质帮助。

6项大考全面超越人类

单一测试的胜利或存偶然，但研究团队设计的多维度评估题库得出了同样结论。

在评估临床推理核心能力的虚拟患者案例测试中，机器取得了接近完美的成绩。采用经过验证的10分制修订版IDEA评分标准，在80个高难度案例中，o1-preview在78个案例中获得满分，得分显著高于GPT-4、主治医师及住院医师。

在初期分诊中识别“绝对不能错过”的致命诊断时，新模型同样表现出极高的敏锐度，其识别关键病因的比例中位数达到0.92，与人类专家队伍相当。

测试进一步升级至复杂的后续医疗管理步骤。研究使用5个基于真实患者改编的测试题，不仅要求诊断，更追问后续处理方案。这些题目的标准答案已由25位医学专家预先界定。

结果对比鲜明：o1-preview在满分100的评估中，得分中位数为89分。相比之下，人类医生借助GPT-4辅助得分为41分左右；仅使用传统医疗资源的医生得分低至34分。单独上阵的GPT-4得分为42分。图表清晰揭示了超过40分的性能鸿沟。

面对老牌计算机辅助诊断系统的经典案例池，o1-preview同样表现出色。测试使用6个从未公开的详尽病例，模型交出了97分中位数的答卷。历史数据显示，使用传统资源的医生得分为74分，GPT-4为92分。

医学决策常涉及概率判断。在一项包含553名医疗从业者的全国性样本测试中，要求估算不同病因的诊断概率。数据显示，人类医生的评估结果个体差异巨大，稳定性不足。而人工智能给出的数值则异常稳健，更贴近科学文献推导的参考值。在评估心肌缺血的关键检测后概率时，o1-preview的表现大幅超越了人类同行和前代系统。

急诊室真实盲测对决

为验证实战能力，研究团队将测试场景设置在波士顿贝斯以色列女执事医疗中心的真实急诊大厅。这里的数据未经修饰，包含凌乱的记录、不完整的表述和复杂的临床指标。

研究随机抽取76个真实急诊病例，让o1大模型、GPT-4o大模型与两位资深内科主治医师进行盲测比拼。由另外两位不知情的主治医师对混合了人类与机器生成的报告进行评分。

值得注意的是，评分医生极难分辨报告来源，其中一位在94.4%的病例评分卡上选择了“无法分辨是人类还是AI”。

评估覆盖急诊的三个关键决策点：初期分诊（信息极少）、医生接诊（初步检查后）、决定入院（检验结果基本出炉）。结果显示，随着信息量增加，所有参评者的准确率均提升，但人工智能在每个阶段均保持优势。

o1模型在信息极度匮乏的初期分诊阶段，给出接近正确诊断的比例达到67.1%，接诊阶段提升至72.4%，入院阶段高达81.6%。而两位资深人类医生的准确率在三个触点上始终落后，尤其在信息最少的初期分诊阶段，差距最为明显。

拥抱智能医疗新纪元

AI技术在临床推理上的这次突破，对医学实践产生了深远影响。长期以来，在急诊等高风险、信息残缺的环境中引入机器辅助决策被视为挑战。

这项广泛而严苛的测试验证了现代大模型处理复杂非结构化临床数据的强大能力。规模化应用此类工具，有望实质性缓解人类医生因疲劳导致的判断失误、关键时机延误以及优质医疗资源分布不均等系统性问题。

当然，研究也揭示了当前局限。测试仅基于文本信息，而真实的临床问诊依赖大量非文本线索——病人的体征、医学影像的细节等，这些都是医生决策的关键。当前基础模型在处理这些多模态信号时仍存在感知局限。因此，探索人机协同处理复杂信息的最佳工作流程是未来重要方向。

环境智能记录与被动健康监测技术的普及，正为打破信息壁垒创造条件。在高度真实、杂乱无章的临床前线检验人工智能的成色，已成为该领域发展的必然路径。

半个多世纪前关于计算机辅助诊断的构想，正逐步成为现实。面对已在多数临床推理基准上实现超越的AI系统，医疗卫生系统需加快自身演进：提前规划算力基础设施，并设计对一线医护高度友好的软件交互界面。

当新一代智能技术无缝整合到临床决策支持系统中时，为你提供关键诊疗建议的，可能将不再局限于人类专家。

顶级医学AI测评：大模型诊断能力超越人类医生

挑战65年医学金标准

6项大考全面超越人类

急诊室真实盲测对决

拥抱智能医疗新纪元

相关阅读

最新教程

最新资讯