DNA基础大模型登Nature子刊：湖南大学团队新突破

2026-06-06阅读 0热度 0

Intel

当深度学习模型将DNA序列简化为A、T、C、G的线性字符排列时，是否忽略了分子层面的关键生物结构信息？

基于碱基序列的文本式建模确实在调控元件识别上取得了一定成效。然而，真实DNA呈现为两条反向平行、碱基互补的双螺旋结构，具备动态协同特性。这引出一个核心挑战：基础模型能否超越简单的序列读取，深入理解正链与反向互补链之间的功能依赖关系？

近期，湖南大学曾湘祥教授课题组联合隆平农学院于峰教授、生物学院罗宵教授等，在《自然·机器智能》（Nature Machine Intelligence）发表CrossDNA研究成果，论文题为Explicit Dynamic Cross-Strand Interactions for DNA Sequence Language Modeling。该工作专注于DNA双链间的信息交换，提出一种显式且动态的序列建模框架，核心目标是将语言模型的设计与DNA分子固有的结构与功能逻辑对齐。

图 1: CrossDNA整体工作流及双分支架构示意。

从单链序列建模迈向双链动态交互

DNA序列语言建模旨在通过学习基因组序列的表示，支持功能元件注释、调控机制解析、非编码变异解释及长程基因组预测。现有方法多采用单链建模策略，将DNA视为单向或双向文本，并依赖反向互补数据增强、参数共享或等变结构等静态约束，赋予模型一定程度的方向一致性与通用表征能力。

然而，真实生物系统中的DNA并非孤立单链。两条链既存在物理连接，又在转录调控、功能元件识别及变异效应传递中表现出深度功能协同。与单链建模不同，双链建模要求模型在序列学习过程中显式捕捉正链与反向互补链之间的上下文交互与动态信息传递，这对阐明基因组结构与功能关系具有关键价值。

CrossDNA正是针对这一需求设计：让模型在表示学习阶段即直接掌握两条链的协同关系，而非在输入前或输出后再进行补偿性修正。

Cross-View、TokenBridge与自蒸馏机制

CrossDNA采用双分支语言模型架构。两个分支结构相同但参数不共享，分别处理同一基因组区域的正向链与反向互补链。训练过程中，Cross-View机制将双链相邻片段交替输入两个分支——相当于模型在训练时持续切换观察视角，而非仅从单侧审视DNA。

图 2: Cross-View机制下的数据预训练流程。

在每个分支内部，CrossDNA借助Comba-SWA结构建模局部模式与长程依赖。随后将两条链的特征对齐至统一正向坐标系，通过轻量级TokenBridge模块在碱基标记层面实现跨链信息交互。最终使用门控融合模块整合双链信息，生成适用于下游任务的表示。

为避免交替输入导致表示不连续，CrossDNA引入基于指数滑动平均教师模型的自蒸馏机制，对两个学生分支施加语义一致性约束。目标清晰：使模型在不同链方向之间维持稳定的表示，而非仅记忆单一输入方向。

基准评估：调控元件分类性能

研究团队首先在Genomic Benchmark的八项调控元件分类任务上进行评估。在参数规模一致的情况下，408K参数的CrossDNA达到平均准确率88.2%，并在小鼠增强子、编码区与基因间区识别、人类调控序列、人类开放染色质区域、人类非TATA启动子五项任务中排名第一。

该结果的意义在于：CrossDNA并非凭借参数堆砌取胜。在紧凑参数量下，显式双链建模带来了切实的性能增益。论文指出，在同一任务集上，其平均准确率甚至超过某些参数规模更大的模型。这提示：对于DNA序列建模，模型对生物结构先验的理解能力可能与模型规模同等重要。

图 3: 不同DNA语言模型在小参数规模下的架构性能优势对比。

Nucleotide Transformer基准测试评估

方向一致性是DNA模型的基础但至关重要的问题。同一DNA片段及其反向互补序列对应同一基因组位置——若模型在两种方向上输出显著不同的判断，将损害全局扫描、功能元件识别及变异预测的可靠性。

论文在Nucleotide Transformer任务集中分别测试了正向链与反向互补链。CrossDNA在36个相关下游任务中，33项排名第一或第二，且在增强子、启动子、剪接位点及组蛋白标记任务上方向一致性表现良好。据报告，代表性任务的正反链得分差异通常低于0.015，最大不超过0.042——这有力支撑了“显式跨链建模可降低方向引发的预测波动”的观点。

表 1: 不同DNA基础模型在Nucleotide Transformer基准上的性能对比。

预测能力、泛化性能与长程任务评估

在人类K562细胞系、小鼠和果蝇的增强子功能元件独立数据集上，CrossDNA展现出显著的泛化竞争力（图4 b,c,d,e,g,h）。在挑战性较高的小鼠数据集上（图4 g,h），经过小鼠基因组持续预训练后，仍保持领先。此外，对于新增强子功能序列元件的发现，CrossDNA提供了高置信度的预测分数（图4 f）。

在长程任务上，CrossDNA在eQTL预测中达到先进或持平的性能（图4 i）。增强子-靶基因交互预测中，Cross-View机制提供的双链上下文信息使交叉验证时正样本预测得分高于单链视角——直观表明双链信息带来了实质性增益。

图 4: CrossDNA在泛化任务、预测任务及长程任务中的表现。

表征质量评估：零样本嵌入性能

除监督微调外，论文还评估了CrossDNA作为通用序列表征模型的能力。研究者从42个真实序列分类任务中提取零样本嵌入表示，并使用随机森林分类器进行测试。结果显示，CrossDNA相比JanusDNA、DNABERT-2、Grover、NTv2、Caduceus-PH和HyenaDNA均取得正向差异。相对JanusDNA的改进幅度虽小但稳定，而相较于HyenaDNA和Caduceus-PH则优势更为显著。

这表明CrossDNA在序列级特征嵌入上具有高质量，足以支持可靠的功能元件分类分析。

图 5: 零样本嵌入性能对比。

生物学解释：基序、非编码变异与候选增强子

优秀的DNA基础模型不仅需提供分数，更应帮助研究者理解哪些序列片段具有功能性。论文进一步从生物学可解释性角度进行分析。

通过计算机模拟突变分析，模型识别的高贡献区域可对应已知转录因子结合基序，例如DREAM合成增强子中的NKX2-8和FOSL1信号（图6 a）。这表明CrossDNA的预测不依赖于表面序列偏差，而是真实捕获了与调控功能相关的序列模式。

在疾病相关变异分析中，论文聚焦冠心病相关变异rs113716316。CrossDNA将其优先定位至一个潜在心脏增强子，并关联至FGR基因调控（图6 c,d,e,f）。模型结果显示，该变异可能涉及RUNX相关抑制信号减弱及AP-1相关活化信号增强——为非编码变异影响疾病风险提供了具体调控机制解释。

研究团队还利用CrossDNA扫描K562细胞中未注释的区域，识别出748个高置信度候选增强子。这些区域富集SMAD3、TAL1/SCL、ERG等造血调控相关基序，在从头基序发现分析中恢复了MYB家族和E2F家族等已知调控模式（图6 g,h）。

图 6: CrossDNA的可解释性分析结果。

局限性与未来展望

论文坦诚指出了CrossDNA的改进空间。早期预训练主要依赖人类参考基因组，对个体水平基因表达差异的预测能力有限。未来若能整合群体遗传变异、多物种基因组及更丰富的调控背景，模型对复杂调控现象的刻画能力有望进一步提升。

总体而言，CrossDNA的价值不仅在于性能提升。它提出了一种更贴近DNA分子结构的建模思路——将基础模型从单链序列建模推进至显式、动态的双链交互建模。它并非简单扩大模型规模，而是将生物学事实重新置于模型核心：DNA的信息既源自双链结构，也来自两条链之间的对应、互补与约束关系。

从这个角度看，CrossDNA不仅是一个新模型，更传递了一个信号：下一代基因组基础模型或许不再仅凭规模取胜，而需更加深入地将其生命分子的结构规律融入语言模型设计。

参考文献

Yang, C., Liu, Y., Ling, L., et al. Explicit Dynamic Cross-Strand Interactions for DNA Sequence Language Modeling. Nature Machine Intelligence (2026).
https://www.nature.com/articles/s42256-026-01249-1