最新研究:生成式AI尚无法独立承担临床推理诊疗任务
美国麻省总医院MESH孵化器团队最新研究:生成式AI的临床推理能力评估
最近,《JAMA Network Open》上发表了一项挺有意思的研究,来自美国麻省总医院MESH孵化器团队。他们干了一件事:系统性地测试了当前主流生成式AI的临床推理能力到底怎么样。结果呢?有点出人意料,又在意料之中。研究选取了包括ChatGPT、DeepSeek、Claude在内的21种主流大语言模型,用29个真实临床病例模拟了动态诊疗的全过程。结论很明确:当前这些AI在最终诊断上表现尚可,但在最核心的鉴别诊断环节,短板暴露无遗,距离独立承担临床诊疗任务,还有很长的路要走。
贴近真实的测试设计
这项研究的设计思路很巧妙,它没有采用那种静态的、考卷式的问答。相反,研究人员刻意还原了真实的临床场景:他们从已确诊的病例库里挑出29个典型病例,然后像医生接诊一样,逐步向AI模型释放信息——先是症状,然后是实验室检查数据,接着是影像结果。这种“挤牙膏”式的信息投放方式,完美模拟了医生在现实中逐步获取线索、逐步推理的动态过程。参与测试的21款模型,基本囊括了市面上知名度最高的头部产品,像ChatGPT、DeepSeek、Claude、Gemini、Grok等,一个都没落下。
矛盾且值得玩味的实验结果
实验数据出来后,呈现出一个非常矛盾的局面。一方面,当AI模型拿到患者的全部信息后,所有模型给出正确最终诊断的准确率都飙到了90%以上。单看这个数字,已经接近一位合格执业医师的水平了,听起来相当不错。
但另一方面,故事在临床推理最核心的环节——鉴别诊断这里,发生了转折。结果可以说是不尽如人意。超过80%的参测模型,根本完不成系统性的鉴别诊断流程。它们既无法合理地罗列出所有需要排除的潜在疾病,也没法结合已有信息,逻辑清晰地进行病因筛选和排除。说白了,很多模型的“思考”方式,本质上还是“关键词匹配”,然后直接蹦出一个结论,中间缺少符合医学规范的那条严谨的推理链条。为了更科学地量化这种差距,研究团队还专门引入了PrIME-LLM这个综合评价指标,这为后续行业优化模型能力,提供了一个挺不错的统一标尺。
给过热预期降降温
话说回来,最近几年,生成式AI在医疗领域的落地速度确实快得惊人。从自动书写病历、辅助影像阅片,再到回答患者咨询,AI的身影已经渗透到医疗流程的多个角落。于是,市场上开始出现一种观点,认为AI很快就能参与核心诊疗,甚至替代部分医生工作。
但这项研究的结论,恰恰给这种过热的预期泼了一盆“清醒剂”。它证明,当前生成式AI的能力边界依然清晰,临床推理这道核心关卡,它还没能真正突破。这就像是一个学生,虽然能背下标准答案(最终诊断),但一遇到需要详细解题步骤和分析过程的题目(鉴别诊断),就露怯了。
未来的方向:从辅助走向核心?
所以,研究的指向很明确:当前主流的生成式AI,尚不具备独立承担临床诊疗任务的资格。它的合理定位,依然是作为辅助工具,帮助医护人员从那些重复性高、负担重的工作中解放出来。
不过,这项研究暴露出的问题,反而指明了接下来的研发方向。业内人士普遍认为,大模型需要在医学推理逻辑的训练上投入更多精力。怎么投入?或许就是更紧密地结合真实的临床路径和决策树,去优化模型的“思考”方式。只有这样,AI才有可能逐步从边缘辅助,向核心诊疗环节谨慎地、一步一步地靠近。这条路,注定需要耐心和扎实的功夫。