最新研究：生成式AI尚无法独立承担临床推理诊疗任务

2026-04-26阅读 315热度 315

大语言模型

美国麻省总医院MESH孵化器团队最新研究：生成式AI的临床推理能力评估

最近，《JAMA Network Open》上发表了一项挺有意思的研究，来自美国麻省总医院MESH孵化器团队。他们干了一件事：系统性地测试了当前主流生成式AI的临床推理能力到底怎么样。结果呢？有点出人意料，又在意料之中。研究选取了包括ChatGPT、DeepSeek、Claude在内的21种主流大语言模型，用29个真实临床病例模拟了动态诊疗的全过程。结论很明确：当前这些AI在最终诊断上表现尚可，但在最核心的鉴别诊断环节，短板暴露无遗，距离独立承担临床诊疗任务，还有很长的路要走。

贴近真实的测试设计

这项研究的设计思路很巧妙，它没有采用那种静态的、考卷式的问答。相反，研究人员刻意还原了真实的临床场景：他们从已确诊的病例库里挑出29个典型病例，然后像医生接诊一样，逐步向AI模型释放信息——先是症状，然后是实验室检查数据，接着是影像结果。这种“挤牙膏”式的信息投放方式，完美模拟了医生在现实中逐步获取线索、逐步推理的动态过程。参与测试的21款模型，基本囊括了市面上知名度最高的头部产品，像ChatGPT、DeepSeek、Claude、Gemini、Grok等，一个都没落下。

矛盾且值得玩味的实验结果

实验数据出来后，呈现出一个非常矛盾的局面。一方面，当AI模型拿到患者的全部信息后，所有模型给出正确最终诊断的准确率都飙到了90%以上。单看这个数字，已经接近一位合格执业医师的水平了，听起来相当不错。

但另一方面，故事在临床推理最核心的环节——鉴别诊断这里，发生了转折。结果可以说是不尽如人意。超过80%的参测模型，根本完不成系统性的鉴别诊断流程。它们既无法合理地罗列出所有需要排除的潜在疾病，也没法结合已有信息，逻辑清晰地进行病因筛选和排除。说白了，很多模型的“思考”方式，本质上还是“关键词匹配”，然后直接蹦出一个结论，中间缺少符合医学规范的那条严谨的推理链条。为了更科学地量化这种差距，研究团队还专门引入了PrIME-LLM这个综合评价指标，这为后续行业优化模型能力，提供了一个挺不错的统一标尺。

给过热预期降降温

话说回来，最近几年，生成式AI在医疗领域的落地速度确实快得惊人。从自动书写病历、辅助影像阅片，再到回答患者咨询，AI的身影已经渗透到医疗流程的多个角落。于是，市场上开始出现一种观点，认为AI很快就能参与核心诊疗，甚至替代部分医生工作。

但这项研究的结论，恰恰给这种过热的预期泼了一盆“清醒剂”。它证明，当前生成式AI的能力边界依然清晰，临床推理这道核心关卡，它还没能真正突破。这就像是一个学生，虽然能背下标准答案（最终诊断），但一遇到需要详细解题步骤和分析过程的题目（鉴别诊断），就露怯了。

未来的方向：从辅助走向核心？

所以，研究的指向很明确：当前主流的生成式AI，尚不具备独立承担临床诊疗任务的资格。它的合理定位，依然是作为辅助工具，帮助医护人员从那些重复性高、负担重的工作中解放出来。

不过，这项研究暴露出的问题，反而指明了接下来的研发方向。业内人士普遍认为，大模型需要在医学推理逻辑的训练上投入更多精力。怎么投入？或许就是更紧密地结合真实的临床路径和决策树，去优化模型的“思考”方式。只有这样，AI才有可能逐步从边缘辅助，向核心诊疗环节谨慎地、一步一步地靠近。这条路，注定需要耐心和扎实的功夫。

最新研究：生成式AI尚无法独立承担临床推理诊疗任务

美国麻省总医院MESH孵化器团队最新研究：生成式AI的临床推理能力评估

贴近真实的测试设计

矛盾且值得玩味的实验结果

给过热预期降降温

未来的方向：从辅助走向核心？

相关阅读

最新教程

最新资讯