单细胞基础模型解读:基因重要性评分新方法
DRUGONE
在单细胞转录组研究中,一个持续困扰学界的问题是:高表达基因是否等同于高功能重要性?事实远非如此。关键转录因子如FOXP3或GATA3常以低拷贝数存在,却是细胞命运的终极裁定者;相形之下,核糖体蛋白及线粒体基因尽管表达量惊人,却对细胞身份界定贡献甚微。为此,研究人员推出了SIGnature框架——其核心是借助单细胞基础模型的归因信号,精确定量每个基因在特定细胞类型中的“功能优先级”。
SIGnature基于可解释人工智能的归因算法,将每个基因对模型隐空间表征的贡献折算为标准化分数,从而产出跨数据集可比的基因重要性度量。研究团队进一步封装为SIGnature软件包,可在百万级单细胞图谱上实现秒级签名检索。
以严重COVID-19与脓毒症中发现的MS1单核细胞程序为测试案例,团队在412项单细胞研究中展开扫描,意外发现该程序与川崎病、噬血细胞性淋巴组织细胞增多症及发热伴血小板减少综合征等急性炎症状态高度吻合。随后体外实验证实,川崎病患者血清可直接诱导MS1表型生成。这一发现暗示,SIGnature不仅提升了签名评分的鲁棒性,更具备揭示跨疾病共享免疫程序的潜力。
过去,研究者习惯以表达量高低论英雄,但这套逻辑在关键调控基因上频频失灵。转录因子表达虽弱,却握有细胞分化的控制权;而MALAT1、核糖体蛋白及线粒体基因常因技术噪声被推至表达榜前列,其功能权重实则微末。
当前单细胞分析主流依赖差异表达、GSEA、GSVA或Seurat等工具,通过相对表达变化推断功能。然而这些方法均受限于批次效应、测序深度波动与细胞组成差异,跨研究比较极易失真。
单细胞基础模型虽能通过预训练学习有生物学意义的隐空间表征,其“黑箱”属性却让研究者难以判定模型究竟依赖哪些基因做出决策。这正是可解释AI归因方法的用武之地——若能拆解模型内部逻辑,则归因得分高的基因天然对应那些决定细胞身份与功能的关键调控者。
SIGnature方法设计
研究团队构建了基于基础模型归因的单细胞基因重要性量化框架。首先选定scFoundation、scGPT、SCimilarity、scTab及scVI等主流模型,要求这些模型接受固定基因集输入,并产出可解释的细胞表征向量。
接着引入Integrated Gradients、Input × Gradient及DeepLIFT三种归因方法,计算每个基因对隐空间表征的边际贡献。为适配多维嵌入,他们在模型末端添加求和层,将向量映射为归因标量。
团队在多个单细胞数据集上执行了系统性基准测试,从归因计算速度、抗技术噪声能力、标志基因富集效率及跨研究稳定性等维度综合评估,最终选择“SCimilarity + Integrated Gradients”作为主力配置。
图1:SIGnature框架概念及归因在单细胞基础模型中的作用机制示意。
结果验证
Attribution精准锁定功能调控基因
归因分数是否真实反映生物学功能?验证结果极为清晰。在B细胞中,BANK1、CD79A及MS4A1等经典标志基因占据归因榜单首位,而表达量最高的却是MALAT1、MT-CO1及RPS27等易受技术干扰的基因。
这一趋势在多种肺细胞类型中亦成立。相较于表达量排序,归因排序显著提升了标志基因与转录因子的排名权重。在CD4+ T细胞亚群分析中:
- GATA3在Th2细胞中归因分数更高;
- RORC在Th17细胞中归因分数更高;
- FOXP3在Treg细胞中归因分数更高。
结论明确:归因聚焦的是功能调控重要性,而非转录丰度。
图2:归因分数与传统表达量在标志基因与转录因子识别中的差异对比。
归因分数对技术伪影免疫
系统评估显示,标志基因的归因分数与UMI计数、检测基因数等测序深度指标的相关性显著弱于表达量。一个典型案例:非经典单核细胞中,表达量与测序深度的相关系数ρ=0.71,而归因分数仅ρ=-0.12。
模拟数据缺失实验中,随机移除50%计数后,归因排名前列的基因仍保持93%的重叠率,强鲁棒性可见一斑。跨模型基准测试进一步表明,归因在所有基础模型中均能有效压制核糖体基因的权重,同时放大有丝分裂相关基因及细胞类型标志基因的信号。
图3:不同基础模型归因的基准测试与抗技术噪声能力对比。
归因支撑跨研究基因程序发现
团队将多个T细胞数据集拼接后对归因矩阵执行非负矩阵分解,成功恢复了CD8+ T细胞因子、细胞因子反应因子及Treg相关因子等信号明确的基因程序。其中Treg因子富集了FOXP3与IL2RA等调控元件,且能推广至16种不同组织的Treg细胞。与基于表达量的NMF相比,归因驱动的NMF更稳定,受研究特异性效应干扰小,生物学因子恢复效率更高。值得注意的是,该方法的表现接近有监督的scETM模型,且无需重训练。
图4:基于归因的跨研究NMF基因程序分析结果。
归因签名评分能力大幅提升
对签名内所有基因的归因分数取平均,可有效量化该签名在单细胞中的激活水平。PBMC数据集验证显示:B细胞签名在B细胞中得分最高,NK签名在NK细胞中居首,CD8+ T签名在CD8+ T细胞中领先。与Scanpy、UCell、JASMINE及ANS等主流方法相比,mean attribution在32项测试中胜出23项,有监督与无监督任务均表现最优。
跨研究分析中,归因评分展现出极强的鲁棒性。传统方法Scanpy可能错误地将CD4+ T细胞赋予高于真实CD8+ T细胞的CD8签名得分,而归因评分全面避免了此类偏差。该结论在120万个细胞、15个独立实验中经过充分验证。
图5:归因签名评分与传统方法的系统比较。
SIGnature在2200万细胞图谱中发现共享炎症状态
归因分数可预先计算,使得SIGnature能在2200万个细胞中实现分钟级签名检索。以严重COVID-19与脓毒症中的MS1单核细胞签名为查询对象,在412项疾病研究中完成了扫描,不仅重现了脓毒性休克与重症COVID-19的已知关联,更意外命中川崎病、发热伴血小板减少综合征及噬血细胞性淋巴组织细胞增多症。川崎病数据显示,MS1样细胞在IVIG治疗后显著下降;体外实验证实,川崎病患者血清能诱导紧急髓系生成并提升HLA-DRlow的MS1样单核细胞比例。这些结果证明,SIGnature不仅能完成评分任务,更能挖掘从未被报告的跨疾病机制。
讨论
SIGnature框架将可解释AI的归因方法系统性地引入单细胞基础模型解析领域,构建了一套统一且可扩展的基因功能重要性度量体系。与传统表达量方法相比,归因更聚焦于驱动模型隐空间表征的核心基因,从而放大转录因子与标志基因的信号,同时压制测序深度及技术伪影的干扰。基于归因的表征不仅提升了跨研究基因程序发现的效率,更在超大规模图谱中实现分钟级签名查询,最终揭示出不同疾病间共享的免疫状态。可以预期,这类可解释的基础模型将成为单细胞分析的底层基础设施,使AI从单纯的预测工具进化为研究者理解细胞调控机制的得力助手。
参考资料
Gold, M.P., Reyes, M., Diamant, N. et al. Scoring gene importance by interpreting single-cell foundation models. Nat Biotechnol (2026).
https://doi.org/10.1038/s41587-026-03112-5





