基于11647例数据：机器学习精准预测HCC肝移植死亡风险

2026-06-11阅读 0热度 0

机器学习

肝癌因为早期症状隐匿、进展又特别迅猛，长期以来都被称为「癌中之王」。其中，肝细胞癌（HCC）是最常见的类型，占原发性肝癌的 70% 到 90%。对于早期患者来说，肝移植通常是根治性的手段，也是很多 HCC 患者最后的「救命稻草」。

但问题在于，供体器官极度稀缺，让这份生的希望变得异常珍贵。更棘手的是，HCC 肝移植候选者始终面临着两重致命威胁——肝功能衰竭和肿瘤进展，它们相互交织、彼此影响，大大增加了患者在等待期间的死亡风险。因此，精准评估 HCC 肝移植候选者的等待期死亡风险，不仅是优化移植等待名单优先级、实现稀缺供体公平分配的关键，更是高效挽救每一个生命、守护这来之不易的希望的绝对核心。

此前，像 Child-Pugh、Albumin-Bilirubin（ALBI）、Model for End-Stage Liver Disease（MELD）这些传统的风险评估方法，已经在肝脏疾病评估中应用很广。但面对 HCC 患者的复杂情况，它们的短板暴露无遗：要么侧重肝功能或肝硬化程度，要么只盯着肿瘤进展，完全没法同时兼顾这两重风险。后来虽然出现了 HALT-HCC、Mehta Model 等能综合考虑两种风险的系统，但受限于线性模型、固定变量权重和单时间点静态测量，还是无法捕捉各因素之间的相互作用，也没法反映疾病动态变化带来的风险波动，个体化的准确评估依然遥不可及。

针对这个临床痛点，来自法国南巴黎高等电信学院和巴黎萨克雷大学的研究团队，提出了一个融合集成学习与 SHAP 分析的机器学习框架，为 HCC 肝移植候选者的死亡风险评估提供了新思路。研究基于 11,647 名患者的临床数据，对比了随机森林、XGBoost 和 LightGBM 三种集成模型，同时将 SHAP 值嵌入 UMAP 低维空间，结合 K-medoids 算法进行监督聚类，明确了肝功能障碍和肿瘤进展是 HCC 患者死亡的两大核心风险。

这项研究可以看作是填补了此前机器学习模型在 HCC 肝移植候选者精准评估，尤其是双重风险研究方面的空白，实现了对患者 3 个月等待期死亡率的精准预测和临床可解释性，为临床决策和风险分层提供了一个新的实用工具。

相关成果以「Explainable Mortality Prediction for Liver Transplant Candidates with Hepatocellular Carcinoma: A Supervised Clustering Approach」为题，发表在 Health Data Science 上。

研究亮点：

首个通过机器学习模型深入分析 HCC 肝移植候选者等待名单死亡风险的综合性研究
通过 SHAP + UMAP + K-medoids 实现了 7 个临床可解释的风险亚组分层，明确了双重风险的核心驱动因素
基于 SHAP 筛选出 8 个关键变量，构建了全新的风险评分 ELM-HCC，预测精度显著优于传统评分
首次将关键指标的动态变量（如 AFP_DIFF）纳入 HCC 肝移植候选者的风险评估，确认了其作为等待期死亡关键预测指标的价值

数据集：大样本策略 + 动态变量引入

为了减少混杂因素的干扰，研究采用了一个基于公共数据库的大样本策略。

具体来说，数据来自器官获取与移植网络和器官共享联合网络的标准化移植分析与研究文件，范围覆盖了 2002 年 2 月 27 日至 2023 年 9 月 30 日期间登记的非多器官移植成年 HCC 患者。

这次研究的核心目标是预测 HCC 患者肝移植 3 个月等待期的死亡率。为此，研究团队将人群分为两组：在等待名单上超过三个月的患者称为「等待名单中」；3 个月内因死亡或病情加重而无法移植的患者称为「等待期死亡」。最终总研究队列包含了 11,647 名患者，其中 11,199 名为「等待名单中」，448 名为「等待期死亡」，数据涵盖了临床、实验室和疾病相关的多维度变量。

在数据预处理阶段，为了捕捉患者健康状态的动态特征，研究团队计算了传统评分中涉及的 6 个关键实验室变量的连续测量差值，包括血清钠、肌酐、白蛋白、胆红素、甲胎蛋白和国际标准化比值。这样一来，总特征数增加到了 31 个（25 个原始静态变量 + 6 个新增动态变量）。

对于缺失值的处理，数值变量（缺失率低于 7%）用类别均值填补；分类变量（缺失率低于 0.1%）则直接删除包含缺失值的观测记录。

模型架构：端到端一体化流程 + 多集成学习模型对比

为了让 HCC 肝移植候选者 3 个月等待期死亡率的预测既有可靠的准确率，又有足够的可解释性，研究团队构建了一个融合集成学习、SHAP 可解释性分析、UMAP 降维与 K-Medoids 监督聚类的端到端一体化流程，如下图所示：

HCC 肝移植候选者死亡风险评估与分层工作流程

首先，核心模型采用的是集成学习的树模型，这类模型在处理表格和异构数据上特别有效。为了对比不同模型的性能，研究共使用了随机森林、XGBoost 和 LightGBM 三种集成模型。实验分两种场景展开：第一种只用 25 个原始静态变量；第二种则用 31 个包含动态变量的动静态结合变量来训练。

其次，可解释性的目的是让预测结果有科学合理的依据，从而增强临床决策的支撑。为此，研究团队将 SHAP 可解释性分析融入框架，用来识别关键风险因素并揭示模型的预测逻辑。

全局解释层面，计算 SHAP 值量化每个特征对预测结果的贡献度，识别死亡率预测的核心风险因素，明确特征与死亡风险的关联方向；局部解释层面，通过 SHAP 总结图和力图，展示单个特征值高低对预测结果的具体影响以及每个患者的特征贡献分布。此外，这一环节还为后续聚类分析提供了 SHAP 值特征集，替代原始数据，提升了聚类的临床可解释性。

最后，为了实现患者的精细化风险分层，从群体水平的预测转向亚组特异性分析，研究流程中加入了 UMAP 降维与 K-Medoids 监督聚类方法。首先将模型预测的 SHAP 值嵌入 UMAP 降维空间，之后用 K-Medoids 算法对嵌入 3 维 UMAP 空间的 SHAP 值进行聚类，从而发现具有不同临床特征的潜在患者亚组。这种方法之所以叫「监督聚类」，是因为聚类是基于 SHAP 值而非原始数据进行的。

最优聚类数的确定，先是通过量化指标（轮廓系数、Da vies-Bouldin 指数）筛选，再通过 SHAP 分析聚类特征进行临床验证，最终确定为 7 。

实验结果：8 种传统评分作为对比 + 最优特征集训练新模型

风险评分表现对比

研究将所提框架与 8 种传统风险评估方法进行了性能对比，包括 ALBI、Child-Pugh、AFP、HALT-HCC、Mehta Model、MELD 及其两个变体 MELD-Na 和 MELD 3.0 。

考虑到数据集存在严重的类别不平衡，研究对多数组（在等待名单上）进行了下采样，生成 30 个与少数组（等待期死亡）规模相当的子集，并对每个平衡子集执行 3 折交叉验证，确保同一患者的所有观测值都归入训练集或测试集。之后通过网格搜索，确定了 3 个集成模型的最优超参数配置，如下图所示：

超参数配置

结果显示，在传统评分系统中，Mehta Model 表现最佳，AUROC 达到 0.782，紧随其后的是 HALT-HCC，AUROC 为 0.763。更重要的是，这两种模型在敏感性和特异性方面表现得更均衡。MELD 3.0 虽然优于基础 MELD 和 MELD-Na，但敏感性和特异性之间的不平衡问题依然存在。

集成学习模型框架与 8 种传统评分系统的实验比较

而当实验扩展到集成学习框架，首先在 25 个静态变量上训练时，其准确率已经全面超过了传统评分系统。其中随机森林表现最佳，AUROC 为 0.796，且 72.41% 的敏感性和 75.24% 的特异性也相当均衡；在引入包含动态变量的 31 个动静态结合变量后，所有集成学习模型的性能更上一层楼。LightGBM 的 AUROC 达到了 0.826，敏感性高达 77.42%，是识别高危患者最有效的模型。

识别关键风险因素能力分析

模型训练完成后，研究团队尝试只用最相关的特征来评估性能。他们针对性能最优的 LightGBM 模型，采用 Gain importance 和 SHAP global importance 两种特征重要性评估方法，对关键特征进行筛选。

基于 LightGBM 模型（性能最优模型），SHAP global importance 筛选出的前 8 个特征让模型性能达到了最优表现，AUROC 高达 0.835，敏感性为 77.14%，特异性为 75.64%。这一结果不仅优于 Gain importance 的筛选结果（8 个特征时 AUROC 为 0.812；12 个特征时达到最佳 0.828），也高于 LightGBM 在完整 31 个变量集上的表现（AUROC 为 0.826），因此被研究团队选定为最优特征集。

利用 SHAP global importance 筛选的 LightGBM 模型的特征重要性排序

最终，研究团队基于这个最优特征集训练的 LightGBM 模型，构建了针对 HCC 患者的概率性死亡率评分，命名为 ELM-HCC 。值得一提的是，LightGBM 在简化后的变量集上，AUROC 居然比完整 31 个变量集还要好，这充分说明选取的 8 个变量具备更强的预测影响力。同时，关键特征中间出现的 AFP_DIFF 也突出强调了纳入动态信息的重要性。

风险分层与亚组分析

研究基于 SHAP 值的监督聚类，识别出了 7 个具有不同临床特征和风险水平的患者亚组。下图 B 清晰展示了从聚类 1 到聚类 7 死亡概率逐渐增加的死亡风险分层。

A 为基于 SHAP 嵌入值的 UMAP 2D 可视化聚类
B 为 7 个聚类观测值的死亡概率箱型图和群体图

基于 Kruskal-Wallis 检验的进一步分析，揭示了不同聚类间变量的差异。如 SHAP 力图所示，从聚类 1 到聚类 7，死亡风险概率呈递进式增长，代表性患者的死亡概率从 0.03 一路攀升到 0.98 。这一趋势与箱型图观察到的排名完全一致，凸显了聚类方法的有效性。

7 个亚组代表的 SHAP 力图

此外，亚组分析还清晰地揭示了导致高死亡率风险的两大主要原因：一是严重的肝功能衰竭（以高胆红素、高肌酐和中度腹水为特征，三者均对应正向 SHAP 值，显著增加死亡风险）；二是活跃的肿瘤进展（以高 AFP 水平为特征）。

总的来说，本研究提出的基于 LightGBM 和 SHAP 可解释性分析的机器学习框架 ELM-HCC，在预测 HCC 肝移植候选者 3 个月等待期死亡风险方面，展现出了显著优于传统评分系统的性能。同时，通过监督聚类揭示出具有不同风险特征的患者亚组，为临床决策提供了更精准、更具解释性的风险评估工具。

革新肝移植候选者风险评估手段，综合性方法弥补研究空白

正如前面提到的，肝癌正在成为全球性的公共卫生难题。面对日益严峻的疾病挑战和越来越高的医疗要求，科学合理地规划肝移植候选人名单显得格外珍贵。早在 2002 年，MELD 评分就已经被用于肝移植候选名单的优先级排序，然而经过多次修订，MELD 的分配仍然无法公平地满足所有候选人。

而机器学习凭借其对高维和多模态数据的处理能力，如今已成为预测器官移植候选名单死亡风险的最佳方案之一。

此前已有机器学习模型应用于肝移植死亡率预测。比如麻省理工学院、加州大学旧金山分校以及得克萨斯大学的联合团队，曾提出基于最优分类树构建的死亡率优化预测模型 OPOM 。基于该模型分配肝脏，每年死亡人数比基于 MELD 可减少约 418 例，各 UNOS 区域及各疾病严重程度等级的死亡或移除人数均显著下降。 此外，该模型还调整了对非 HCC 和 HCC 患者的肝脏分配数量，使移植分配得到了显著优化，减少了候选者的死亡。

不过，OPOM 虽然表现出色，但它是基于 HCC 和非 HCC 混合队列开发的，并没有针对性解决 HCC 患者面临的肝功能衰竭与肿瘤进展双重风险问题。而 ELM-HCC 则恰恰填补了这一空白。

最后，这次研究不仅仅是对前人工作的精进和拓展，更难能可贵的是，正如作者所说，它是对当前研究空白的弥补，首次实现了对 HCC 肝移植候选者 3 个月等待期死亡率的可解释性精准预测，为「机器学习 + 器官移植候选者风险评估」提供了全新的思路。