Nature子刊：AI+血液多组学精准预测心血管风险，提前15年预警

2026-05-16阅读 0热度 0

Nature

在心血管疾病预防领域，我们长期面临一个核心挑战：许多疾病在临床症状出现前，已在体内悄然发展多年。传统的风险评估，主要依赖年龄、血压、血脂等常规指标，或是基于遗传背景的多基因风险评分。然而，心血管疾病是一个复杂的长期演变过程，个体未来往往面临多种心血管结局的复合风险。单一指标或针对单一疾病的预测模型，很难全面描绘这幅复杂的风险图谱。

转机出现在大规模人群队列和高通量分子检测技术时代。研究者发现，血液中的蛋白质和代谢物如同身体实时发送的“分子电报”，能更直接地反映当前的生理状态与潜在的疾病进程。这些信号不仅受先天遗传影响，也随环境、生活方式动态变化，为前瞻性的长期风险评估提供了全新的信息维度。

正是在此背景下，一项由香港大学数据科学研究院及药理与药剂学系副教授张清鹏领衔的研究，带来了突破性进展。团队基于UK Biobank大规模前瞻性人群数据，创新性地将蛋白组、代谢组信息与人工智能相结合，构建了一个能同时评估多种心血管疾病长期风险的整体框架。相关成果发表于《自然·通讯》，为心血管风险预测开辟了一条更系统、也更贴近临床现实的新路径。

用血液多组学信息，系统评估多种心血管疾病风险

这项研究揭示了一个核心结论：在传统临床指标之上，引入血液多组学信息，能显著提升对多种心血管疾病长期风险的预测能力，且这种提升效果稳定、一致。

研究采用了分阶段构建与验证的严谨设计。团队提出了名为CardiOmicScore的框架，分别利用血液中的2,920种蛋白质和168种代谢物，训练了两类人工智能模型，并衍生出两种疾病特异性风险评分：基于蛋白组的ProScore和基于代谢组的MetScore。

关键在于，这两种评分并非针对单一疾病，而是在同一模型中同时纳入多种心血管疾病进行训练。这种方法能系统性地捕捉不同疾病间的共性生物学特征与各自的特异性分子差异，最终为每种疾病生成独立的风险评分。在随后对约2.4万名基线健康人群的验证中，这些评分的预测效能得到了系统评估。

（图1. 研究设计与分析流程。a. 研究人群；b. 模型开发流程；c. 模型性能评估。）

结果令人振奋。即便不依赖任何传统临床指标，ProScore和MetScore本身已展现出强大的风险识别能力，能在疾病发生前十年以上发出预警。其中，基于蛋白组的ProScore表现最为稳定，其区分高风险与低风险人群的能力明显优于多基因风险评分，在部分心血管结局预测上，甚至接近常用的临床风险模型。基于代谢组的MetScore表现稍弱，但整体仍优于遗传评分。

在真实世界人群中，这些多组学评分清晰划出了风险分层。无论是蛋白组还是代谢组评分，被划入高风险的人群，其后续发生心血管疾病的概率始终显著高于低风险人群，且这一规律在研究所关注的六种心血管疾病中普遍存在。

（图2. MetScore 与 ProScore 对心血管疾病风险的区分能力。a. 按MetScore分层的生存概率；b. 按ProScore分层的生存概率；c. MetScore和ProScore与心血管疾病风险的关联强度。）

进一步分析证实，多组学信息提供了超越现有临床评估的额外价值。无论基线临床模型包含多少信息，只要加入蛋白组或代谢组评分，预测性能都会获得明显提升。其中，蛋白组评分的改善最为突出，代谢组次之，而多基因风险评分的贡献则相对有限。这有力地表明，多组学信号捕捉到的，正是传统临床检查难以触及的分子层面风险。

（图3. 多组学信息对心血管疾病的预测性能。a. 模型的判别能力；b. 加入多组学信息后基线临床模型预测性能的变化。）

从临床转化角度看，整合多组学信息后的模型预测结果稳定可靠，预测风险与实际事件发生率高度吻合，避免了系统性高估或低估。在多种模拟临床决策场景中，这类模型显示出更高的潜在净收益，意味着它有望帮助临床医生更早、更精准地锁定真正的高危人群，同时减少不必要的干预。

（图4. 心血管疾病预测模型的校准能力和净收益曲线。a. 校准曲线；b. 净收益曲线。）

为了揭开模型的“黑箱”，研究者通过SHAP方法深入分析了模型依赖的关键分子特征。分析结果既验证了经典，也揭示了新知。一些临床上早已熟知的指标，如反映心脏负荷的NT-proBNP/NPPB蛋白，以及体现肾功能和营养状态的肌酐、白蛋白，依然是核心预测因子。

更重要的是，模型还识别出一批具有潜力的新型生物标志物。在蛋白组中，GDF15、MMP12、FASLG和NEFL等分子显示出强劲的预测能力；在代谢组中，谷氨酰胺、特定脂肪酸、糖蛋白乙酰基以及多种脂质相关分子也扮演着重要角色。

这些分子在不同心血管疾病中的作用模式并不完全相同，为深入理解心血管疾病的复杂分子机制和探索新干预靶点提供了宝贵线索。值得注意的是，这些分子的功能大多与心肌应激、炎症反应和代谢紊乱等已知病理过程相吻合，说明模型确实精准捕捉到了心血管疾病发生发展的关键生物学信号。

（图5. 心血管疾病风险预测中具有代表性的关键代谢物和蛋白质。a. 关键代谢物；b. 关键蛋白质。）

（图6. 代谢物和蛋白质在心血管疾病风险预测中的相对贡献。a. 代谢物的预测贡献；b. 蛋白质的预测贡献。）

基于大规模人群数据的研究设计与模型验证

这项研究的可靠性，根植于其严谨的设计与大规模的人群数据。研究依托UK Biobank前瞻性队列，严格遵循“先开发、后验证”的原则。模型首先在仅包含单一组学信息的大规模人群中训练（约22万代谢组数据参与者，约1.9万蛋白组数据参与者），随后在一个独立、同时具备遗传、代谢和蛋白信息且基线健康的2.4万人群中进行验证。中位长达约15年的随访时间，足以捕捉心血管疾病的长期演变过程。

研究聚焦于六种常见且疾病负担较重的心血管疾病。所有疾病结局均通过医院住院记录和死亡登记信息严格确认，保证了结果的可靠性。在数据整合上，研究囊括了三类关键信息：反映先天易感性的多基因遗传风险评分；反映当前机体代谢状态的血液代谢组数据；以及一次性覆盖近3000种循环蛋白、涉及炎症、免疫、代谢调控等多重生物过程的蛋白组数据。

在此基础上诞生的CardiOmicScore人工智能框架，其核心优势在于能够同步学习多种心血管疾病的共性与特性。它输出的不是简单的二元分类，而是连续的风险评分，这使其更适用于长期的动态风险评估。在验证阶段，研究不仅评估了模型的预测准确度，还通过校准分析和决策曲线分析，系统检验了其在模拟真实临床场景中的可靠性与实用价值。对模型的可解释性分析，则让预测结果与生物学机制得以关联，超越了“黑箱”预测的局限。

一个可持续扩展的心血管风险评估模型框架

这项工作的意义，在于它构建了一个面向未来的心血管风险评估新范式。研究清晰地表明，仅靠传统临床指标或静态的遗传信息，难以全面评估长期、复合的心血管风险。而血液中的蛋白质和代谢物，作为动态反映身体状态的分子“晴雨表”，提供了至关重要的补充信息。将它们系统整合，能显著提升预测的准确性。

在临床实践层面，这项研究指向了一种更高效的风险评估模式：通过一次血液检测，即可同步评估个体未来罹患多种心血管疾病的长期风险。这打破了传统“一病一评”的局限，更贴合临床中多种风险因素并存的复杂现实，为开展大规模、精准化的风险筛查提供了可能。

在精准医学的视角下，该研究凸显了蛋白组和代谢组信息的独特价值。与相对固定的遗传背景不同，这些分子标志物能敏感地反映环境、生活方式及健康状况的变化，因此尤其适用于动态风险监测和早期预防干预，为心血管疾病的一级预防增添了强有力的科学工具。

此外，通过对模型的深度解读，研究不仅验证了已知标志物，更借助AI的力量挖掘出一系列新的潜在分子线索。这些发现有助于深化对心血管疾病机制的理解，并为未来开发新的生物标志物、发现药物靶点以及优化治疗策略指明了方向。

展望未来，这项研究展示了一种可扩展的医学AI研究框架。随着更多维度的数据（如影像、心电等）被纳入，此类模型有潜力演进为更全面、更强大的心血管健康评估工具，为临床决策提供更具前瞻性和个体化的支持。

主要作者

论文的作者包括：香港大学罗颜、崔梦瑶、张清鹏，天津医科大学第二医院刘彤、张楠，南京大学羊剑楠，香港中文大学蔡锦辉教授和利物浦大学 Gregory Y. H. Lip，张清鹏与刘彤为共同通讯作者。

Nature子刊：AI+血液多组学精准预测心血管风险，提前15年预警

用血液多组学信息，系统评估多种心血管疾病风险

基于大规模人群数据的研究设计与模型验证

一个可持续扩展的心血管风险评估模型框架

主要作者

相关阅读

最新教程

最新资讯