2026 ILCR研究揭示：为何70B医疗大模型问诊能力反不及8B精简版？

2026-05-16阅读 0热度 0

医疗人工智能的演进轨迹，很大程度上由其能力评估体系所定义。

长期以来，该领域的发展聚焦于医学知识的获取与逻辑推理。模型的“智能”水平，通常由医学考试题库、临床问答数据集等静态基准来评判。在此框架下，模型只需在信息完备、问题封闭的场景中输出正确答案，即被认为具备了合格的医疗能力。

大语言模型的突破，迅速推高了这条路径的天花板。多个系统在MedQA等测试中达到乃至超越了人类专家水准，一度催生了“医疗AI是否已臻成熟”的行业乐观论调。

然而，当这些模型被部署到更贴近真实临床的动态交互环境中时，一个根本性的缺陷开始显现。真实的医疗实践，并非基于完整信息的诊断，而是在高度不确定条件下，通过连续提问、风险甄别与信息整合来逐步逼近决策的动态过程。

模型在静态评测中展现的知识优势，并未能无缝转化为对真实问诊场景的有效支撑。相反，在多轮对话中，它们暴露出一系列策略性短板：提问模式僵化、对高风险信号反应迟缓、过早锁定结论，以及缺乏基础的沟通技巧与共情能力。

这种“应试高分”与“临床低能”之间的断层，正成为制约医疗AI落地的核心瓶颈。它迫使研究者回归本质进行思考：医疗智能体真正需要被训练和评估的核心能力究竟是什么？

针对这一核心问题，清华大学刘洋团队的研究《DOCTOR-R1: Mastering Clinical Inquiry with Experiential Agentic Reinforcement Learning》应运而生。该工作试图从问题建模与训练范式层面，突破以静态知识评测为主导的传统路径。

其核心在于，不再将模型能力简单等同于知识覆盖面或参数规模，而是将临床问诊本身定义为一个长期、多轮、部分可观测且高度风险敏感的序列决策过程。研究的重点转向探索如何让模型学会在信息残缺的条件下，提出高价值问题、动态调整询问策略，并在全过程中保持安全警觉与沟通品质。这为医疗智能体从工具型问答系统，迈向具备临床推理与交互能力的决策主体，提供了一种新的方法论。

从模板化提问到策略性问诊

这项研究的实验设计，系统性地解答了三个关键问题：现有模型在真实临床问诊中面临哪些具体挑战？DOCTOR-R1在哪些维度上弥补了这些不足？其能力提升是否确由所提出的机制驱动，而非偶然因素？

对照实验首先揭示了一个关键事实：在静态医学问答任务中表现优异的模型，在需要多轮交互的动态临床问诊环境中，会出现系统性的策略失效。

这种失效根植于问诊策略，而非知识储备。具体表现为：提问顺序缺乏针对性，倾向于使用信息增益低的标准化“体检式”问题；在患者反馈潜在高危信号后，难以动态调整提问路径，仍沿用固定模板；在关键信息尚未充分收集时便过早形成判断，甚至给出不当的安抚或错误建议；整体沟通方式与医疗场景脱节，表现为共情缺失、语气武断或对不确定性处理生硬。

由于这些问题在MedQA、MMLU等静态评测中几乎无法暴露，研究指出传统评测方式对模型真实临床能力存在严重的“测量失真”。相比之下，DOCTOR-R1的性能提升是整体性的。它不仅在传统测试中优于基线模型，在MAQuE等模拟交互评测集上，其最终表现也超越了GPT-4.1等模型。

这一点在对话轮次与诊断准确率的关联分析中得到印证。DOCTOR-R1从首轮对话起便建立优势，并随着对话推进持续扩大领先幅度，呈现出“越问越准”的策略特性。

同时，在HealthBench评测集的沟通质量、上下文理解与回答完整性等指标上，DOCTOR-R1的提升幅度显著高于基础准确率。这表明，良好的沟通与共情能力并非附属品，而是其高效问诊策略的内在组成部分——有效的共情本身提升了信息获取的效率。

进一步的消融实验验证了机制设计的有效性。研究团队发现，若移除过程奖励、仅保留最终诊断奖励，模型虽能学习到正确诊断，但中间问诊过程会明显退化为模板化和低风险偏好模式，在高风险场景中更易产生安全性不足的回答。这证明，若不对提问过程本身进行显式优化，模型会自然忽略“如何提问”这一关键能力。

而当经验库机制被移除后，模型在新场景中的适应能力显著下降，在相似病例上的表现稳定性变差，对话策略波动增大。这表明，仅依赖在线策略强化学习，不足以模拟真实医生通过长期经验积累所形成的稳定、高效的问诊策略。

因此，这些实验结果并非对整体性能的简单补充，而是从多个侧面直接支撑了研究团队所提出的核心机制设计。

让模型在不确定中学会决策

在实验设计层面，研究团队论证了采用强化学习而非单纯微调的必要性，其核心判断在于两者所能习得的能力本质不同。

微调主要教会模型在获取完整信息后“如何作答”，而临床问诊的关键挑战在于，模型在尚不清楚答案时，“如何决定下一步应询问什么信息”。

这一过程本质上是行动会改变未来可获取信息结构的序列决策问题，因此天然更适合用强化学习来建模。进一步，研究人员指出，临床问诊是一个典型的部分可观测决策过程。在真实场景中，患者自身对病情理解也不完整，医生只能通过患者的回答逐步反推潜在状态，大量关键信息只有在被主动、恰当地询问后才会浮现。

基于此，该研究将问诊过程建模为“部分可观测马尔可夫决策过程”，而非简单的完全可观测MDP。其中，真实病情状态对医生模型不可见，医生获得的观察信息带有噪声且不完整，而每一次提问行为都会直接影响下一步可获得的信息内容。这种建模方式对于保留“问什么才有价值”这一核心问题至关重要。

同时，研究团队强调，多智能体交互环境并非为了增加复杂性，而是提升模型泛化能力的必要条件。如果患者仅由固定脚本模拟，模型极易学会针对特定脚本的应对套路，从而在真实多样化的场景中泛化能力极差。

为此，研究人员采用大语言模型来扮演患者智能体。这使得即便在相同疾病背景下，患者的表述方式、回答顺序以及风险信号的暴露时机都具有高度多样性，从而迫使医生智能体学习稳定、普适的问诊策略，而非记忆固定的对话套路。

在奖励设计方面，研究提出的双层奖励机制旨在解决两个长期存在的难题。其一，若仅依据最终诊断结果给予奖励，模型会倾向于过早猜测并提前结束对话，导致中间问诊过程失控，高风险错误难以及时被惩罚；其二，医疗决策中存在“否决型错误”，即一次危险建议或严重误判，其负面影响无法被多次礼貌或合理的表达所抵消。

不同于传统的加权平均得分，研究团队引入了分层惩罚机制，将安全性、推理合理性和医学准确性置于最高优先级，一旦触发底线错误即直接给予强负奖励。这种在强化学习中相对激进的设计虽然约束严格，但能确保模型守住临床安全的底线，更贴近真实医疗对风险控制的严苛要求。

最后，在经验利用机制上，该研究并未将经验库视为普通的记忆模块，而是将其定位为经过严格筛选的“高质量医生经验”。通过仅存储高奖励轨迹、在检索时同时考量语义相似度与历史奖励，并引入新颖性约束以避免模型反复依赖同一问诊套路，该机制使模型在面对新患者时，更接近一位积累了丰富临床经验的医生，而非仅依赖答案记忆的学生。

真实临床能力导向的医疗AI方法论启示

从更广阔的视角看，这项研究为医疗人工智能领域提供了明确且具有深度的范式启示。

研究结果首先表明，当前医疗AI的瓶颈不仅受限于模型所掌握的医学知识规模，更在于是否采用了与真实临床实践相匹配的训练范式。实验显示，在参数规模仅为8B的条件下，结合恰当的强化学习训练框架，模型在多项动态问诊指标上能够超越参数规模达32B甚至70B的知识型模型。这对长期以来以模型规模和知识覆盖度为单一导向的发展路径，构成了有力的纠偏。

其次，研究将以往被视为难以量化、难以系统训练的“软技能”问题，成功转化为可优化、可评估的目标。通过合理的任务建模与精细的奖励设计，使得共情表达、沟通质量以及对不确定性的处理等能力，能够被稳定评估并持续强化。这验证了软技能并非只能依赖隐式学习或人工规则注入，而是可以纳入统一的训练与评价体系之中。

最后，从方法论层面看，研究提出的框架为构建面向真实世界的智能体提供了一种可复制的通用模板。其核心问题特征——不完全信息条件下的序列决策、面向长期目标的行动规划、高风险情境中的安全约束，以及对经验积累机制的依赖——正是大多数真实世界智能体任务所共有的。因此，这项工作的意义超越了医疗领域本身，为更广泛的智能体研究提供了具有高度参考价值的范式思路。

构建DOCTOR-R1的人

论文第一作者为黎雍卉，清华大学计算机科学与技术系硕士研究生，师从刘洋教授。她的主要研究方向为智慧医疗与大模型智能体，特别是在医疗模型的交互、进化与推理等能力优化方面。她已在ICLR等顶级会议上发表多篇学术成果，并曾获中国政府奖学金、北京市政府奖学金、清华计算机系84创新未来奖学金等多项荣誉。

论文的共同通讯作者之一是马为之，现任清华大学智能产业研究院副研究员，主要从事智能信息获取与智慧医疗的研究工作。他在SIGIR、ICLR等国际顶级会议以及Nature Medicine等权威期刊上发表了100余篇学术论文，曾获得SIGIR、EMNLP等会议的论文奖项，并入选中国科协青年人才托举工程、北京市科技新星计划。目前担任ACM TOIS期刊副主编及中国中文信息学会青年工作委员会秘书长。

论文的另一位共同通讯作者是刘洋，他是清华大学计算机科学与技术系万国数据教授、智能产业研究院院长、人工智能医院联席执行院长。其研究方向涵盖自然语言处理、智慧医疗和科学智能。

刘洋教授承担了国家自然科学基金委杰出青年项目、科技创新2030“新一代人工智能”重大项目等重要科研任务，获得国家科技进步二等奖1项、省部级与一级学会科技奖励5项、重要国际会议优秀论文奖4项。其主要学术兼职包括中国人工智能学会组织工作委员会主任、中国中文信息学会计算语言学专业委员会主任等。

2026 ILCR研究揭示：为何70B医疗大模型问诊能力反不及8B精简版？

从模板化提问到策略性问诊

让模型在不确定中学会决策

真实临床能力导向的医疗AI方法论启示

构建DOCTOR-R1的人

相关阅读

最新教程

最新资讯