AI智能体临床决策能力排行榜：两款超越医生

2026-06-19阅读 0热度 0

AI智能

大语言模型临床决策表现亮眼，距离真实部署还有多远？

大语言模型在医疗领域的应用始终是焦点议题。近期两项研究带来振奋结果——两款基于大语言模型的AI智能体，在虚拟测试中展现出媲美甚至超越医生的临床决策水平。不过，研究团队冷静指出：这些模型距离真实医疗环境部署仍有明显差距。

这两款智能体分别由德国学术团队开发的MIRA，以及谷歌开发的AMIE。相关成果发表于《自然》期刊。研究显示，大语言模型在医疗领域具备成为综合性工具的潜力——不止辅助诊断，还能承担诊断分析、患者管理、制定护理计划等一系列任务，远超当前临床中单一功能的应用范畴。

先看MIRA。全称为“医疗智能推理与行动系统”，整合患者病史、实验室检验结果、影像数据和微生物检测信息。在八种测试病症的诊断中，MIRA的准确率与不同经验层级医生及委员会认证医师相当，部分病症（如胰腺炎）表现更优。在手术操作排序、静脉输液管理和镇痛药使用等任务中，MIRA同样优于医生——其99.8%的用药建议被判定为正确，治疗决策与临床指南的吻合度更高。

另一款智能体AMIE则直接与全科医生对比。结果显示，AMIE生成的治疗方案和检查计划，在评分和针对性上均优于医生，多项指标达到非劣效性标准，数值层面明显胜出。但两支研究团队给出相同结论：虽然结果令人期待，但在投入真实临床前，大语言模型必须经过前瞻性研究验证——部分案例仍存在与推荐做法相悖的情况，需高度警惕。

爱丁堡大学健康信息学与数据科学教授朱莉·雅科高度评价这两项研究，认为方法严谨扎实。但她指出，这些性能表现来自模拟环境，无法完整还原“真实临床决策的复杂性”。牛津大学社会学家凯瑟琳·波普教授持类似观点：这些研究与“日常医疗中混乱、复杂、充满人情味的真实世界”仍有相当距离——实际场景中，医生常需应对不完整甚至相互矛盾的数据。她补充道：“这些技术在现实中的应用，必须与临床医生协同推进。它们不太可能取代医生，况且许多人认为，AI在本质上无法也不应该替代医疗中至关重要的人文关怀。”

心脏病学家、斯克里普斯研究转化研究所所长埃里克·托波尔则从临床角度指出一个关键局限：MIRA和AMIE均为纯文本AI。“也就是说，医疗实践中的诸多要素——从患者的非语言表达和语气，到实际医学影像的读取——都未被纳入。”不过他同时表示：“这些大语言模型将持续进化。两篇论文中使用的模型实际上已经过时。可以将MIRA和AMIE视为在模拟条件约束下迈出的重要一步，而非真正意义上的临床医学。但AI能力提升极快，将这些优势延伸至真实医疗实践，或许并不遥远。”

Q&A

Q1：MIRA在临床诊断中的准确率如何？
A：MIRA在八种测试病症中的诊断准确率与不同经验层级医生及委员会认证医师相当，部分病症（尤其是胰腺炎）表现更优。其99.8%的用药建议被判定为正确，治疗决策与临床指南的吻合度高于对照医生组。

Q2：AMIE与全科医生相比，表现如何？
A：AMIE生成的治疗方案和检查计划在评分和针对性上均优于全科医生，多项指标达到非劣效性标准，数值层面表现更优。但研究团队强调，这些结果来自模拟环境，需前瞻性研究验证后方能应用于临床实践。

Q3：MIRA和AMIE目前能否在真实医疗场景中使用？
A：目前不能。研究人员指出，两款智能体均在模拟环境中测试，无法完整反映真实临床的复杂性。两者均为纯文本AI，无法处理医学影像或捕捉患者非语言信息。专家普遍认为，未来应用需与临床医生协同，而非替代医生。

AI智能体临床决策能力排行榜：两款超越医生

大语言模型临床决策表现亮眼，距离真实部署还有多远？

Q&A

相关阅读

最新教程

最新资讯