Nature子刊:条件Monge Gap驱动可泛化单细胞扰动建模框架

2026-06-06阅读 0热度 0
Intel

单细胞扰动预测(single-cell perturbation prediction)的核心目标,是训练模型去推断细胞在药物处理、基因编辑或其它干预后的状态变化。这是精准医疗和药物发现领域的关键技术难题。然而,一个根本性障碍始终存在:单细胞测序具有破坏性,不可能对同一个细胞同时测量其“干预前”与“干预后”的表达谱。研究人员只能获得群体层面的分布数据,而非一一对应的配对样本。这导致传统监督学习方法难以适用,无法准确捕获真实的扰动效应。更棘手的是,现有绝大多数模型都需要为每一种扰动单独训练,一旦遇到全新的药物、剂量或组合,模型就会因“未见过”而失效。

能否让模型学会举一反三?近期一项研究给出了一个巧妙答案——Conditional Monge Gap(简称CMonge)。该模型基于条件最优传输(Optimal Transport)理论,通过引入条件信息来学习一个全局最优传输映射,使得不同药物、不同剂量、不同组合之间的知识能够共享,甚至能泛化到从未见过的全新条件。研究团队在单细胞RNA测序数据集SciPlex以及多重蛋白成像数据集4i上进行了系统验证:CMonge在已知扰动的预测任务上达到了甚至超越当前最优方法;在预测从未见过的药物方面,显著优于主流模型chemCPA,同时很好地保留了细胞群体的异质性。更令人关注的是,若引入药物结构信息并扩大训练规模,CMonge可以同时对数百种药物进行联合学习,仅凭药物的分子结构就能预测新药引发的细胞响应——这为虚拟药物筛选和药物再利用开辟了全新路径。

理解细胞如何响应外界扰动,是生物医学研究的长期核心命题。单细胞RNA测序与高通量药物筛选技术的发展,使研究人员能够系统观察不同细胞群体对药物、基因编辑及各种治疗手段的反应。但问题在于,即使是最先进的实验平台,也无法穷尽海量的药物结构、剂量组合和基因扰动空间。因此,利用机器学习预测尚未被实验测量的扰动结果,成为一个极具实际价值的研究方向。

早期有scGen采用变分自编码器学习扰动前后的潜在空间变化,随后PerturbNet、GEARS、chemCPA以及一些单细胞基础模型相继出现。这些方法各有突破,但始终绕不开两个关键挑战:第一,由于单细胞测序破坏细胞,扰动前后的细胞无法一一对应,模型必须学习分布之间的变化而非样本之间的映射;第二,大多数模型缺乏对未见药物、新剂量、新扰动条件的泛化能力——本质上仍是“未见即不会”。

最优传输理论在这一问题上具有天然优势——它可以直接学习两个细胞群体分布之间的转换关系。之前的CellOT和scPRAM已尝试用最优传输建模细胞状态变化,但它们属于“局部模型”:每种药物或条件都要单独训练一个模型,既无法共享知识,也预测不了新条件。正是在此背景下,CMonge被提出,目标是用统一的条件最优传输框架实现跨扰动学习和泛化预测。

方法

CMonge建立在Monge Gap最优传输框架之上。原始Monge Gap对每一种扰动单独学习最优传输映射,而CMonge引入条件变量,将药物、剂量或药物组合信息编码成上下文嵌入,然后用一个统一模型同时学习多个扰动之间共享的传输规律。

模型输入包括源细胞分布和条件嵌入信息。对于药物,研究者采用两种表示方式:一种基于药物作用机制(Mode of Action, MoA)构建嵌入;另一种基于SMILES结构计算RDKit分子指纹。药物剂量则用对数剂量表示。模型通过多层感知机学习细胞状态的变化向量,然后叠加到原始细胞表示上,最终得到预测的扰动后状态。对于药物组合,进一步采用DeepSets结构实现排列不变的组合表示。

评估在SciPlex数据集(187种药物、4个剂量、约76万细胞)和4i蛋白成像数据集(35种癌症治疗方案)上进行,分别测试了已知条件(In-Sample)和未见条件(Out-of-Sample)两类预测任务。

结果

CMonge建立统一的条件最优传输框架

先梳理整体设计思路。传统最优传输方法需为每种扰动单独训练模型,不同任务间完全无法共享知识。CMonge则用统一的条件模型同时学习多个扰动下的细胞状态转换规律,相当于构建了一个全局最优传输估计器。该设计有一个直接优势:推理时只需输入新的条件信息,模型就能直接预测对应的扰动后状态,完全无需重新训练。研究团队认为,这种全局学习机制能充分利用不同扰动间潜在的生物学共性,从而大幅提升泛化能力。

图1:Conditional Monge Gap整体框架示意,涵盖条件编码、全局最优传输学习以及已知和未知扰动预测流程。

条件信息显著提升已知扰动预测能力

在SciPlex数据集上,研究团队首先验证了条件信息的重要性。实验发现,仅利用单独剂量信息构建的CMonge模型,就能恢复大部分性能损失,预测效果接近为每种药物单独训练36个Monge模型的表现。而加入药物信息后,性能进一步提升。特别是在高剂量条件下,模型能准确重建扰动引起的细胞状态变化。

有趣的是,当采用药物作用机制(MoA)作为条件嵌入时,单个CMonge模型即可达到甚至超过36个独立模型的整体表现。即使只使用药物结构指纹(RDKit),随着训练药物数量的增加,模型性能也在持续提升。

团队还专门分析了MEK抑制剂Trametinib的信号通路变化,发现CMonge预测的富集通路与真实实验高度一致,包括MAPK信号通路及其下游转录调控网络。这表明模型不仅能预测表达变化,还能保留重要的生物学机制。

图2:SciPlex数据集中不同条件模型的性能比较,以及Trametinib通路富集分析结果。

扩展至数百种药物后结构信息发挥关键作用

在只包含少量药物时,基于MoA的条件嵌入明显优于基于RDKit结构特征的嵌入。这是否与训练规模不足有关?为验证此点,团队将训练数据扩展至SciPlex全部187种药物,共748个药物-剂量组合。结果,RDKit模型的性能显著提升,并达到与MoA模型相近的水平。

该结果表明,随着药物数量增加,模型能够逐渐学会从分子结构中提取与生物学效应相关的信息。由于RDKit嵌入仅依赖药物结构,无需任何实验测量数据,这为预测全新药物的响应提供了重要基础。

另外值得注意的一点是,CMonge的计算复杂度近似随条件数量线性增长,相比为每种药物单独训练模型,效率优势非常明显。

实现未见药物与未见剂量预测

真正考验泛化能力的是模型在从未见过的条件下的表现。对于未见剂量预测,传统的无条件模型性能会迅速下降,但加入剂量信息后的CMonge能够显著提高预测精度,即使面对训练中从未出现过的剂量水平,仍能保持良好表现。

更具挑战性的任务是未见药物预测。团队采用“留一药物”策略——将某一种药物的所有剂量条件全部从训练集中移除。结果显示,基于MoA嵌入的CMonge几乎达到了条件特异模型的理论上限,远超当前主流方法chemCPA。

在进一步扩大到187种药物的交叉验证实验中,基于RDKit结构表示的CMonge同样超过了chemCPA。无论采用R²、Wasserstein距离还是MMD评价,CMonge均为最佳。尤其在高剂量条件下,优势更为明显。通过UMAP可视化可以看到,CMonge预测的细胞群体不仅准确落在真实目标分布附近,而且能很好地保持细胞群体内部的异质性结构;相比之下,chemCPA往往只能学习平均效应,预测结果出现明显的模式坍塌。

图3:4i数据集与SciPlex数据集中未见条件预测结果比较。

图4:CMonge与chemCPA在未见药物预测中的性能比较及UMAP可视化结果。

讨论

Conditional Monge Gap为单细胞扰动建模提供了一套全新的条件最优传输框架。与传统方法相比,CMonge不再需要为每种扰动单独训练模型,而是通过统一模型实现跨任务学习和知识共享,泛化能力显著提升。

研究结果表明,CMonge不仅在已知扰动预测中达到当前最佳水平,而且在未见药物和未见剂量预测任务上表现出色。特别是利用药物结构信息时,模型能够直接从分子结构推断潜在的细胞响应,这为虚拟药物筛选和药物再利用提供了一条切实可行的技术路径。

有意思的是,相比近年来兴起的单细胞基础模型,CMonge的参数量极小,却在多个基准测试中取得了更优结果。这或许说明,针对具体科学问题设计的物理和数学归纳偏置,可能比单纯扩大模型规模更有效。

当然,当前模型仍有局限。例如,对于训练数据中极少出现的药物类别、高剂量条件以及完全未知的细胞类型,泛化能力还有提升空间。未来若结合更复杂的注意力机制、流匹配方法以及更大规模的单细胞筛选数据集,预测精度有望进一步提高。

整体而言,CMonge展示了条件最优传输在单细胞生物学中的巨大潜力。通过将药物结构、剂量和组合信息统一纳入建模框架,研究团队为构建真正可泛化的“虚拟细胞模型”迈出了关键一步,也为精准医疗和智能药物发现提供了新的技术路线。

参考资料

Driessen, A., Rajwade, D.A., Harsanyi, B. et al. Conditional Monge Gap enables generalizable single-cell perturbation modelling. Nat Mach Intell (2026).
https://doi.org/10.1038/s42256-026-01242-8

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策