岐伯中医大模型专业评测与榜单推荐

2026-06-16阅读 0热度 0

ai 人工智能

摘要

大型语言模型（LLMs）在医学、法律、金融等专业领域已经展现出强大的能力。但到了中医药领域，情况就复杂了。中医的理论体系和现代医学差异巨大，同时专业语料也极度稀缺，这让LLM在这里施展不开。针对这个问题，我们做了一套完整的工作：构建并整理了一个中医药领域的专业语料库，为模型灌注了独特的中医专业知识，并成功开发了基于LLaMA的“Qibo”模型。这可是中医药领域里，第一个真正走通了从预训练到监督式微调（SFT）全流程的LLM。同时，我们还做了一个叫Qibo-benchmark的评估工具，专门用来衡量不同模型在中医药领域的理解和应用水平。这个工具不仅能量化对比，也能为未来的智能中医助手指明方向。最后的实验也证明，Qibo在中医药领域确实表现得相当出色。

1 引言

ChatGPT和GPT-4横空出世，让大语言模型的能力广为人知。它们能回答各种问题，在很多通用场景下甚至超越了人类。尽管这些模型不开源，但开源社区很快跟进，推出了LLaMA、Bloom、Falcon等优秀模型。为了补足这些模型在中文上的短板，研究人员也搞出了更强的中文语言模型。

不过，这些通用LLM在特定专业领域，比如生物医学，就有点力不从心了，主要是因为缺乏相应的专业知识。生物医学领域要求极高的准确性和安全性，这对LLM的开发提出了巨大挑战。当然了，医学LLM在辅助诊断、咨询、用药推荐上潜力巨大。

在中医药这个方向上，已经有不少人推出了医学LLM，比如Li、Zhang、Xiong等人的工作。但这些模型基本都是只做了监督式微调（SFT）。但之前的研究早就指出，LLM的绝大部分知识是在预训练阶段积累下来的，这是打基础的关键一步。而RLHF（基于人类反馈的强化学习）则是帮模型认清自己的能力边界，更好地理解指令。如果只依赖SFT，模型很容易“过拟合”——它只是在机械记忆答案，而不是真正理解和推理内在知识。而且这些训练数据集大多是单轮对话，完全忽略了真实医患对话的复杂过程。

尽管已有不少工作推动了中医药大模型的发展，但大家常常忽略了一个关键点：中医药跟现代医学的理论根基完全不同。现代医学按病种来治疗，比如血糖高了就是糖尿病；而中医则是通过望、闻、问、切四诊合参，先确定患者的“证候”，再根据证候来定治疗方案。所以，同一种病可能因为证候不同而用不同的治法（同病异治），而不同的病也可能因为证候相同而用同样的治法（异病同治）。

图1：同一样本，中医和现代医学的完全不同的诊断过程。

这种根本性差异决定了，构建一个优秀的中医药模型，需要的知识体系跟现代医学模型完全不同。现有的一些工作只是想着往模型里“灌”中医知识，效果自然不好。在这篇文章里，我们专注于开发和训练真正能理解和应用中医知识的LLM，弥补这块空白。为此，我们推出了Qibo，这是第一个基于LLaMA的、从预训练一路做到SFT的中医药LLM。主要贡献有四点：

训练了一个全新的中医药LLM，并且是第一个在中医药领域完整走通从预训练到SFT流程的LLaMA实现。
提出了一套扩展的数据清洗方案，设置了不同粒度的规则，并且专门为中医古代文本定制了特殊规则。
构建了中医药领域的评估基准。它基于教科书，提供了不同科目的客观选择题来评估基础知识；同时还测试了识别中药、阅读理解中医古文、辨证论治的能力，并用GPT-4来评估回答的专业性、安全性和流畅性。
做了多项实验，验证了我们的模型在中医药领域性能出色。

2 相关工作

这部分我们来回顾一下已有的相关研究，主要分两块：大型语言模型本身，以及它们在医学领域的应用。

2.1 大型语言模型

ChatGPT和GPT-4的成就掀起了AI浪潮，虽然没开源，但LLaMA、Bloom、Falcon等开源模型迅速吸引了社区。它们一开始中文能力有限，但通过用大规模中文数据集训练，中文能力得到了提升。比如，Chinese LLaMA和Chinese Alpaca就不断用中文数据和词表进行预训练和优化，Ziya-LLaMA则完成了RLHF流程。当然，也有从头开始构建熟练中文LLM的尝试。

2.2 医学领域的LLM

大模型在要求高精度和复杂知识的医学背景下，往往表现不佳。为了改善这一点，出现了像MedAlpaca、ChatDoctor这样的模型，它们采用持续训练策略；而Med-PaLM和Med-PaLM2在临床响应上已经获得了专家的好评。在中文医学领域，DoctorGLM用了大量中文医学对话数据和外部知识库，BenTsao则只用医学知识图谱来构建对话。张等人创建了HuatuoGPT，利用2500万对话数据集，结合蒸馏数据和真实数据做SFT，再加上ChatGPT的RLHF反馈排名，实现了更好的响应质量。Zhongjing是一个基于中文医学LLaMA的LLM，完整走通了预训练、SFT到RLHF的全流程，并引入了包含7万条真实医患对话的中文多轮医学数据集CMtMedQA，显著提升了复杂对话和主动询问的能力。

3 方法

现在来看看Qibo是怎么构建的，主要包括三个阶段：持续预训练、SFT和数据处理。整体流程图如图2所示。

表1：预训练数据的统计。

3.1 持续预训练

高质量的预训练语料能显著提升LLM的性能，某种程度上甚至可以打破规模法则。医学领域复杂又宽广，必须强调数据的多样性和高质量。光靠教科书不行，它们只能提供基础理论知识。真正的诊疗还需要经验、洞察力和直觉。中医作为医学的子领域，除了具有医学的共性，还有自己的独特性。

所以，我们收集了各种真实相关的文本数据，主要包括现代医学教科书、中医教科书、中医方剂数据集、中医阅读理解试题、经典中医治疗方案、中医古文、中医百科全书，以及其他体现中医理论特征的语料。这些数据集覆盖了医学的各个部门和方面。经过清洗后，我们用这些数据对Chinese-LLaMA进行了持续预训练，最终得到一个基础的中医药模型。表1列出了预训练数据的统计。

图2：构建Qibo的总体流程。顶部矩形下方的勾号和叉号分别表示模型当前具备和不具备的能力。

在预训练阶段，我们让模型从权威的西医教科书、中医教科书和中医百科全书中汲取知识。这样做，既为模型打下了现代医学体系的坚实基础，也让它深入理解了中医的理论和实践知识。通过这种跨学科融合，模型能更好地掌握中西医结合的诊断和治疗方法，为未来的问答系统提供更全面的支持。

从医学藏书中，中医相关古书包含了大量经典的理论基础和诊断案例，可以进一步学习中医的理论体系和诊断知识。从中医辨证数据集中，可以学习辨证分析能力；从中医经典阅读理解数据集中，可以加强对传统知识的理解；从中医方剂数据中，可以学习方剂中包含的辨证关系。这样，就能训练出一个具有中医理论知识体系、理解中医、辨证论治和识别药方能力的基础中医模型。

3.2 监督式指令微调

SFT是让LLM具备对话能力的关键一步。借助高质量的医患对话数据，模型可以有效调用预训练阶段积累的医学知识来理解和回应。但一味依赖ChatGPT生成的精致化数据，模型可能只是模仿其说话模式，而不是学习实质能力，甚至会“崩溃”。虽然大量的精致化数据能快速提升对话流畅性，但在医学领域，准确性更重要。因此，我们避开了只用精致化数据的做法。在SFT阶段，我们用了四种数据类型，全部转换成Alpaca的对话格式：

中医药单轮对话数据

为了提高模型在中医领域的对话能力，我们用了单轮对话指令数据集ChatMed-TCM。通过微调，可以显著提升模型的对话能力。

中医药多轮对话数据

多轮问答能力是模型必需的，我们选择了CMtMedQA中中医科室的问答对话数据，并混合到微调数据集中。CMtMedQA是第一个适合LLM训练的大规模多轮中医问答数据集，覆盖了14个医学科室和10多种场景，还包含大量主动询问语句，可以提示模型发起医学查询——这是医学对话的基本特征。

中医药NLP任务指令数据

广泛的任务能改善模型的零样本泛化能力。为了防止模型过度拟合医学对话任务，我们将所有与中医相关的NLP任务数据（比如方剂实体识别、症状识别、阅读理解）都转换成了指令对话格式，提高了泛化能力。

一般医学相关对话数据

为了防止增量训练后对之前一般对话能力的“灾难性遗忘”，我们加入了一些与医学主题相关的简单对话。这既减少了遗忘，也增强了模型对医学领域的理解。这些对话还包含了与模型自我感知相关的修改。

表2列出了微调数据的来源。通过将多种来源的数据转换为多轮对话格式来微调模型，以增强其在中医问答方面的能力。

3.3 数据处理

中医语料库的专业知识来源不多，主要是现代中医教科书、中医古书、中医百科全书等。对于原始数据，我们统一转换成json格式，然后清洗、去重、做质量评估，以获得更高质量的训练语料。我们在每一步都整合了不同粒度的处理规则，包括字符级清洗规则和段落级清洗规则。

字符级清洗规则主要判断单个字符是否在可理解范围内，是否需要替换。段落级规则则是将文本划分为语义连续的段落。在这个过程中，我们手动检查了字符级清洗的正确性和段落划分的正确性，并通过采样不断改进规则。如图2所示，处理后的数据用于预训练和微调。

4 实验与评估

这部分讲实验评估，包括训练细节、基线、评估方法和结果。

4.1 训练细节

我们的模型基于Chinese-LLaMA-7B/13B。7B模型用8个Ascend-910 NPUs全参数并行训练，13B模型用16个Ascend-910 NPUs全参数并行训练，而不是用LoRA这种参数高效调优方法。为了平衡训练成本，我们用了混合的fp16-fp32精度和梯度累积策略，以及ZeRO-2，并将单个响应（包括历史）的长度限制为2048。优化器用AdamW，dropout率为0.1，学习率调度器用余弦。为了保持训练稳定性，在梯度爆发和衰减期间会将损失减半。表4列出了最终参数。所有训练阶段的损失都成功收敛。

表2：微调数据的来源

4.2 基线

为了全面评估，我们选了一系列不同参数规模的大语言模型作为基准，包括通用的和医学的。

- ChatGPT

大约175B参数的知名模型，虽然不是专门为医学训练，但在医学对话中表现出色。

- Chinese-LLaMA

一个完全训练的中文通用模型，也是我们比较性能提升的基础。

- BenTsao

首个基于Chinese-LLaMA并在8k规模医学对话数据集上微调的中文医学模型。

- DoctorGLM

基于ChatGLM-6B的中文医学模型，在大量医学指导数据上微调。

- HuatuoGPT

基于Bloomz-7b1mt，通过SFT在2500万规模的医学指令集上微调，并用ChatGPT的RLHF进一步优化。

- ZhongJing

基于ziya-LLaMA的中医药LLM，完整走通了预训练、SFT到RLHF的全流程，并用7万轮多轮对话数据增强了多轮对话能力。

4.3 评估

我们构建了三个方面的评估数据集：主观评估、客观评估和中医NLP任务。

4.3.1 主观评估

收集了150个与中医相关的实验问题，从专业性、安全性和流畅性三个维度评估对话，并用胜率、平局率和失败率作为衡量标准。评估结合了人类和AI。安全性评估比较复杂，我们用了医学专家做样本，然后让GPT-4根据专家评估结果来打分。对于专业性和流畅性，直接用GPT-4评分以节省人力。具体含义如下：

安全性

必须提供科学准确的医学知识，尤其在疾病诊断、药物推荐等方面；必须承认对未知知识无知；必须确保患者安全；必须拒绝回答可能造成伤害的信息或建议；必须遵守医学伦理，尊重患者选择；如果违反，则拒绝回答。

专业性

必须准确理解患者的问题和需求，提供相关回应和建议；必须以患者能理解的方式简洁解释复杂医学知识；必要时必须主动询问患者状况和相关信息。

流畅性

答案必须语义连贯，无逻辑错误或无关信息；回答的风格和内容必须一致，无矛盾；响应必须保持友好和欢迎；冷酷或过于简短的语气不可接受。

图3：GPT4评估Qibo-7B在（a）安全性，（b）专业性和（c）流畅性方面的结果。

图4：GPT4评估Qibo-13B在（a）安全性，（b）专业性和（c）流畅性方面的结果。

4.3.2 客观评估

收集了3175道与13个中医实践考试相关的练习题作为评估数据，通过比较不同科目回答的准确性来测量。

4.3.3 中医药NLP任务评估

我们从方剂识别、辨证分析和阅读理解三个数据集中分别保留了517、689和475条数据进行评估，采用Rouge-L作为评估标准。

4.4 结果

主观评估结果如图3和图4所示，客观评估结果如图5所示，NLP任务结果如表3所示。结果表明，Qibo在主观评估的三个维度上都表现出色，在客观评估中取得了最好结果。在中医NLP任务中，虽然它不如专门为特定任务优化的最佳模型，但仍然优于其他医学模型。在大多数情况下，它都超过了基准模型。

表3：三个NLP任务的简单结果。"*" 表示为特定任务专门设计的最佳结果。TCM-NER 指的是中医处方实体识别任务。TCM RP 是一个中医阅读理解测验对构建任务。TCM-SD 指的是中医辨证任务。

5 结论与局限性

我们介绍了Qibo，一个在中医药领域实施了从预训练到SFT全流程的LLM，其性能优于其他开源的中文医学模型，在中医药领域具有可比性。我们收集了优质的中医训练语料，并构建了Qibo-benchmark评估基准，填补了中医药领域的评估空白。

当然，也得坦诚地提一下它的局限性。Qibo并不能保证所有回答都是准确的。考虑到医疗领域误导性信息的严重后果，我们建议用户对生成信息保持谨慎，并咨询专业人士。Qibo目前主要依赖文本信息，可能还无法处理更复杂的多模态信息，比如医学图像和患者生理信号。未来的研究可以聚焦于提高安全性、整合真实用户数据来优化RLHF，并融合非文本信息，以提供更全面和准确的健康护理。回到模型本身，Qibo主要还是作为研究工具，而不是专业医疗建议的替代品。