岐伯中医大模型专业评测与榜单推荐

2026-06-16阅读 0热度 0
ai 人工智能

摘要

大型语言模型(LLMs)在医学、法律、金融等专业领域已经展现出强大的能力。但到了中医药领域,情况就复杂了。中医的理论体系和现代医学差异巨大,同时专业语料也极度稀缺,这让LLM在这里施展不开。针对这个问题,我们做了一套完整的工作:构建并整理了一个中医药领域的专业语料库,为模型灌注了独特的中医专业知识,并成功开发了基于LLaMA的“Qibo”模型。这可是中医药领域里,第一个真正走通了从预训练到监督式微调(SFT)全流程的LLM。同时,我们还做了一个叫Qibo-benchmark的评估工具,专门用来衡量不同模型在中医药领域的理解和应用水平。这个工具不仅能量化对比,也能为未来的智能中医助手指明方向。最后的实验也证明,Qibo在中医药领域确实表现得相当出色。

1 引言

ChatGPT和GPT-4横空出世,让大语言模型的能力广为人知。它们能回答各种问题,在很多通用场景下甚至超越了人类。尽管这些模型不开源,但开源社区很快跟进,推出了LLaMA、Bloom、Falcon等优秀模型。为了补足这些模型在中文上的短板,研究人员也搞出了更强的中文语言模型。

不过,这些通用LLM在特定专业领域,比如生物医学,就有点力不从心了,主要是因为缺乏相应的专业知识。生物医学领域要求极高的准确性和安全性,这对LLM的开发提出了巨大挑战。当然了,医学LLM在辅助诊断、咨询、用药推荐上潜力巨大。

在中医药这个方向上,已经有不少人推出了医学LLM,比如Li、Zhang、Xiong等人的工作。但这些模型基本都是只做了监督式微调(SFT)。但之前的研究早就指出,LLM的绝大部分知识是在预训练阶段积累下来的,这是打基础的关键一步。而RLHF(基于人类反馈的强化学习)则是帮模型认清自己的能力边界,更好地理解指令。如果只依赖SFT,模型很容易“过拟合”——它只是在机械记忆答案,而不是真正理解和推理内在知识。而且这些训练数据集大多是单轮对话,完全忽略了真实医患对话的复杂过程。

尽管已有不少工作推动了中医药大模型的发展,但大家常常忽略了一个关键点:中医药跟现代医学的理论根基完全不同。现代医学按病种来治疗,比如血糖高了就是糖尿病;而中医则是通过望、闻、问、切四诊合参,先确定患者的“证候”,再根据证候来定治疗方案。所以,同一种病可能因为证候不同而用不同的治法(同病异治),而不同的病也可能因为证候相同而用同样的治法(异病同治)。

图1:同一样本,中医和现代医学的完全不同的诊断过程。

这种根本性差异决定了,构建一个优秀的中医药模型,需要的知识体系跟现代医学模型完全不同。现有的一些工作只是想着往模型里“灌”中医知识,效果自然不好。在这篇文章里,我们专注于开发和训练真正能理解和应用中医知识的LLM,弥补这块空白。为此,我们推出了Qibo,这是第一个基于LLaMA的、从预训练一路做到SFT的中医药LLM。主要贡献有四点:

  1. 训练了一个全新的中医药LLM,并且是第一个在中医药领域完整走通从预训练到SFT流程的LLaMA实现。

  2. 提出了一套扩展的数据清洗方案,设置了不同粒度的规则,并且专门为中医古代文本定制了特殊规则。

  3. 构建了中医药领域的评估基准。它基于教科书,提供了不同科目的客观选择题来评估基础知识;同时还测试了识别中药、阅读理解中医古文、辨证论治的能力,并用GPT-4来评估回答的专业性、安全性和流畅性。

  4. 做了多项实验,验证了我们的模型在中医药领域性能出色。

2 相关工作

这部分我们来回顾一下已有的相关研究,主要分两块:大型语言模型本身,以及它们在医学领域的应用。

2.1 大型语言模型

ChatGPT和GPT-4的成就掀起了AI浪潮,虽然没开源,但LLaMA、Bloom、Falcon等开源模型迅速吸引了社区。它们一开始中文能力有限,但通过用大规模中文数据集训练,中文能力得到了提升。比如,Chinese LLaMA和Chinese Alpaca就不断用中文数据和词表进行预训练和优化,Ziya-LLaMA则完成了RLHF流程。当然,也有从头开始构建熟练中文LLM的尝试。

2.2 医学领域的LLM

大模型在要求高精度和复杂知识的医学背景下,往往表现不佳。为了改善这一点,出现了像MedAlpaca、ChatDoctor这样的模型,它们采用持续训练策略;而Med-PaLM和Med-PaLM2在临床响应上已经获得了专家的好评。在中文医学领域,DoctorGLM用了大量中文医学对话数据和外部知识库,BenTsao则只用医学知识图谱来构建对话。张等人创建了HuatuoGPT,利用2500万对话数据集,结合蒸馏数据和真实数据做SFT,再加上ChatGPT的RLHF反馈排名,实现了更好的响应质量。Zhongjing是一个基于中文医学LLaMA的LLM,完整走通了预训练、SFT到RLHF的全流程,并引入了包含7万条真实医患对话的中文多轮医学数据集CMtMedQA,显著提升了复杂对话和主动询问的能力。

3 方法

现在来看看Qibo是怎么构建的,主要包括三个阶段:持续预训练、SFT和数据处理。整体流程图如图2所示。

表1:预训练数据的统计。

3.1 持续预训练

高质量的预训练语料能显著提升LLM的性能,某种程度上甚至可以打破规模法则。医学领域复杂又宽广,必须强调数据的多样性和高质量。光靠教科书不行,它们只能提供基础理论知识。真正的诊疗还需要经验、洞察力和直觉。中医作为医学的子领域,除了具有医学的共性,还有自己的独特性。

所以,我们收集了各种真实相关的文本数据,主要包括现代医学教科书、中医教科书、中医方剂数据集、中医阅读理解试题、经典中医治疗方案、中医古文、中医百科全书,以及其他体现中医理论特征的语料。这些数据集覆盖了医学的各个部门和方面。经过清洗后,我们用这些数据对Chinese-LLaMA进行了持续预训练,最终得到一个基础的中医药模型。表1列出了预训练数据的统计。

图2:构建Qibo的总体流程。顶部矩形下方的勾号和叉号分别表示模型当前具备和不具备的能力。

在预训练阶段,我们让模型从权威的西医教科书、中医教科书和中医百科全书中汲取知识。这样做,既为模型打下了现代医学体系的坚实基础,也让它深入理解了中医的理论和实践知识。通过这种跨学科融合,模型能更好地掌握中西医结合的诊断和治疗方法,为未来的问答系统提供更全面的支持。

从医学藏书中,中医相关古书包含了大量经典的理论基础和诊断案例,可以进一步学习中医的理论体系和诊断知识。从中医辨证数据集中,可以学习辨证分析能力;从中医经典阅读理解数据集中,可以加强对传统知识的理解;从中医方剂数据中,可以学习方剂中包含的辨证关系。这样,就能训练出一个具有中医理论知识体系、理解中医、辨证论治和识别药方能力的基础中医模型。

3.2 监督式指令微调

SFT是让LLM具备对话能力的关键一步。借助高质量的医患对话数据,模型可以有效调用预训练阶段积累的医学知识来理解和回应。但一味依赖ChatGPT生成的精致化数据,模型可能只是模仿其说话模式,而不是学习实质能力,甚至会“崩溃”。虽然大量的精致化数据能快速提升对话流畅性,但在医学领域,准确性更重要。因此,我们避开了只用精致化数据的做法。在SFT阶段,我们用了四种数据类型,全部转换成Alpaca的对话格式:

中医药单轮对话数据

为了提高模型在中医领域的对话能力,我们用了单轮对话指令数据集ChatMed-TCM。通过微调,可以显著提升模型的对话能力。

中医药多轮对话数据

多轮问答能力是模型必需的,我们选择了CMtMedQA中中医科室的问答对话数据,并混合到微调数据集中。CMtMedQA是第一个适合LLM训练的大规模多轮中医问答数据集,覆盖了14个医学科室和10多种场景,还包含大量主动询问语句,可以提示模型发起医学查询——这是医学对话的基本特征。

中医药NLP任务指令数据

广泛的任务能改善模型的零样本泛化能力。为了防止模型过度拟合医学对话任务,我们将所有与中医相关的NLP任务数据(比如方剂实体识别、症状识别、阅读理解)都转换成了指令对话格式,提高了泛化能力。

一般医学相关对话数据

为了防止增量训练后对之前一般对话能力的“灾难性遗忘”,我们加入了一些与医学主题相关的简单对话。这既减少了遗忘,也增强了模型对医学领域的理解。这些对话还包含了与模型自我感知相关的修改。

表2列出了微调数据的来源。通过将多种来源的数据转换为多轮对话格式来微调模型,以增强其在中医问答方面的能力。

3.3 数据处理

中医语料库的专业知识来源不多,主要是现代中医教科书、中医古书、中医百科全书等。对于原始数据,我们统一转换成json格式,然后清洗、去重、做质量评估,以获得更高质量的训练语料。我们在每一步都整合了不同粒度的处理规则,包括字符级清洗规则和段落级清洗规则。

字符级清洗规则主要判断单个字符是否在可理解范围内,是否需要替换。段落级规则则是将文本划分为语义连续的段落。在这个过程中,我们手动检查了字符级清洗的正确性和段落划分的正确性,并通过采样不断改进规则。如图2所示,处理后的数据用于预训练和微调。

4 实验与评估

这部分讲实验评估,包括训练细节、基线、评估方法和结果。

4.1 训练细节

我们的模型基于Chinese-LLaMA-7B/13B。7B模型用8个Ascend-910 NPUs全参数并行训练,13B模型用16个Ascend-910 NPUs全参数并行训练,而不是用LoRA这种参数高效调优方法。为了平衡训练成本,我们用了混合的fp16-fp32精度和梯度累积策略,以及ZeRO-2,并将单个响应(包括历史)的长度限制为2048。优化器用AdamW,dropout率为0.1,学习率调度器用余弦。为了保持训练稳定性,在梯度爆发和衰减期间会将损失减半。表4列出了最终参数。所有训练阶段的损失都成功收敛。

表2:微调数据的来源

4.2 基线

为了全面评估,我们选了一系列不同参数规模的大语言模型作为基准,包括通用的和医学的。

- ChatGPT

大约175B参数的知名模型,虽然不是专门为医学训练,但在医学对话中表现出色。

- Chinese-LLaMA

一个完全训练的中文通用模型,也是我们比较性能提升的基础。

- BenTsao

首个基于Chinese-LLaMA并在8k规模医学对话数据集上微调的中文医学模型。

- DoctorGLM

基于ChatGLM-6B的中文医学模型,在大量医学指导数据上微调。

- HuatuoGPT

基于Bloomz-7b1mt,通过SFT在2500万规模的医学指令集上微调,并用ChatGPT的RLHF进一步优化。

- ZhongJing

基于ziya-LLaMA的中医药LLM,完整走通了预训练、SFT到RLHF的全流程,并用7万轮多轮对话数据增强了多轮对话能力。

4.3 评估

我们构建了三个方面的评估数据集:主观评估、客观评估和中医NLP任务。

4.3.1 主观评估

收集了150个与中医相关的实验问题,从专业性、安全性和流畅性三个维度评估对话,并用胜率、平局率和失败率作为衡量标准。评估结合了人类和AI。安全性评估比较复杂,我们用了医学专家做样本,然后让GPT-4根据专家评估结果来打分。对于专业性和流畅性,直接用GPT-4评分以节省人力。具体含义如下:

安全性

必须提供科学准确的医学知识,尤其在疾病诊断、药物推荐等方面;必须承认对未知知识无知;必须确保患者安全;必须拒绝回答可能造成伤害的信息或建议;必须遵守医学伦理,尊重患者选择;如果违反,则拒绝回答。

专业性

必须准确理解患者的问题和需求,提供相关回应和建议;必须以患者能理解的方式简洁解释复杂医学知识;必要时必须主动询问患者状况和相关信息。

流畅性

答案必须语义连贯,无逻辑错误或无关信息;回答的风格和内容必须一致,无矛盾;响应必须保持友好和欢迎;冷酷或过于简短的语气不可接受。

图3:GPT4评估Qibo-7B在(a)安全性,(b)专业性和(c)流畅性方面的结果。

图4:GPT4评估Qibo-13B在(a)安全性,(b)专业性和(c)流畅性方面的结果。

4.3.2 客观评估

收集了3175道与13个中医实践考试相关的练习题作为评估数据,通过比较不同科目回答的准确性来测量。

4.3.3 中医药NLP任务评估

我们从方剂识别、辨证分析和阅读理解三个数据集中分别保留了517、689和475条数据进行评估,采用Rouge-L作为评估标准。

4.4 结果

主观评估结果如图3和图4所示,客观评估结果如图5所示,NLP任务结果如表3所示。结果表明,Qibo在主观评估的三个维度上都表现出色,在客观评估中取得了最好结果。在中医NLP任务中,虽然它不如专门为特定任务优化的最佳模型,但仍然优于其他医学模型。在大多数情况下,它都超过了基准模型。

表3:三个NLP任务的简单结果。"*" 表示为特定任务专门设计的最佳结果。TCM-NER 指的是中医处方实体识别任务。TCM RP 是一个中医阅读理解测验对构建任务。TCM-SD 指的是中医辨证任务。

5 结论与局限性

我们介绍了Qibo,一个在中医药领域实施了从预训练到SFT全流程的LLM,其性能优于其他开源的中文医学模型,在中医药领域具有可比性。我们收集了优质的中医训练语料,并构建了Qibo-benchmark评估基准,填补了中医药领域的评估空白。

当然,也得坦诚地提一下它的局限性。Qibo并不能保证所有回答都是准确的。考虑到医疗领域误导性信息的严重后果,我们建议用户对生成信息保持谨慎,并咨询专业人士。Qibo目前主要依赖文本信息,可能还无法处理更复杂的多模态信息,比如医学图像和患者生理信号。未来的研究可以聚焦于提高安全性、整合真实用户数据来优化RLHF,并融合非文本信息,以提供更全面和准确的健康护理。回到模型本身,Qibo主要还是作为研究工具,而不是专业医疗建议的替代品。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策