Bi-TEAM通用框架:港中文浙大等融合生物学语义与化学精度

2026-06-11阅读 0热度 0
hyperai

在生物化学与分子工程领域,表征学习已成为解析分子功能、驱动治疗性分子发现的核心技术。嵌入特征的质量直接决定肽性质预测与从头设计等下游任务的性能上限。作为连接生物功能与化学特性的关键分子,肽的结构与功能建模在药物研发中占据重要地位。近年来,非经典氨基酸的引入显著拓宽了肽的功能空间,提升了其稳定性与生物利用度——但代价是,复杂的化学修饰对传统建模方法构成了新挑战。核心问题在于:如何在模型中同时整合生物进化信息与化学合理性?这已成为该领域亟待突破的关键命题。

当前,肽建模主要沿两条技术路径展开。一条以ESM、ProtT5为代表的蛋白质语言模型,通过大规模序列预训练捕捉生物上下文与进化信息,为下游任务提供可迁移的生物表征。另一条则针对非经典氨基酸修饰问题,采用化学语言模型,通过原子级分词捕捉化学细节,弥补了蛋白质模型在化学层面的不足。

然而,两条路径各有短板。蛋白质语言模型受限于天然氨基酸字符表,无法识别非经典残基;当前采用的近似或扩展词汇方法常引入偏差或导致语义稀疏。化学语言模型则忽略全局生物上下文,且密集分词易超出上下文窗口,难以处理长序列建模,通用模型还存在领域偏差。两者均存在明显的偏科问题。

针对这一困境,香港中文大学联合澳门理工大学、浙江大学、中南大学湘雅第二医院、中国电子科技大学等机构,提出了一种选择性融合建模范式。其核心洞见在于:化学变异本质上是生物语义空间的局部扰动。基于此,他们设计了Bi-TEAM——一个将局部化学变异注入全局蛋白质背景的通用框架。简而言之,以生物表征为语义主干,自适应注入化学信号,实现生物进化信息与化学合理性的深度融合。

结果令人瞩目。在多项任务中,Bi-TEAM持续超越最先进基线模型。例如,在基于骨架相似性的严格数据划分下,马修斯相关系数提升高达66%,溶血预测任务准确性提升350%。相关成果已以「Bi-TEAM: A Unified Cross-Scale Representation Learning Framework for Chemically Modified Biomolecules」为题发表在arXiv预印本上。

研究亮点:

  • Bi-TEAM框架既能自适应整合多尺度生化性质,也可作为高保真先验模型,实现高效肽设计。
  • 研究团队在3个生化领域的10个多样化数据集上全面评估Bi-TEAM,在7个关键预测任务中达到SOTA水平。
  • 该模型在预测与生成任务中实现双重突破:严格骨架相似性划分下MCC提升66%,并将细胞穿透环肽设计成功率提升近4倍。

论文地址:
https://arxiv.org/abs/2603.01873

覆盖三大生化领域,基于10个多样化数据集进行全面评估

这项研究的评估从性质预测与引导生成两个维度展开,覆盖修饰肽、翻译后修饰(PTMs)以及天然蛋白三大领域,共计10个数据集。

在修饰肽领域,研究重点评估模型的膜通透性预测能力。核心训练数据来自ProPAMPA数据库。该数据集中,环原子数范围12–46,序列长度分布近似正态,但两头有明显长尾;同时包含大量天然与非经典氨基酸残基,化学多样性极高。经RDKit去重后,共包含6,876条非共轭环肽序列。

为检验模型泛化能力,研究进一步引入3个外部湿实验数据集:ProCacoPAMPA、CycPeptMPDB v1.2以及Rezai数据集。这些数据集覆盖不同长度与结构类型的环肽样本。其中:

ProCacoPAMPA:从既有研究中整理出所有长度为6和10的跨膜环肽序列,并统一构建成标准化数据集。

CycPeptMPDB v1.2:目前公开规模最大的非经典环肽膜通透性数据库最新版本,整合自56篇文献,共包含8,466条记录。本研究中,研究人员去除与ProPAMPA数据集重复的样本,最终得到包含1,230个数据点的精炼子集。

Rezai:包含11条环肽的被动膜通透性数据,通过PAMPA实验测得,常用于小样本条件下的模型外部验证。

为进一步验证模型的成药性与疾病关联性,研究人员在PTM数据集上开展了成药性预测任务。所用数据包括成药性数据集和疾病关联数据集两类。前者以较长蛋白序列为主,修饰位点呈现长尾分布特征;后者主要来源于dbPTM、全基因组关联研究(GWAS)等数据库,修饰位点分布与前者相似,但序列长度范围更广,提供了更多样化的结构背景。

在天然蛋白领域,研究人员重点评估模型在溶解度预测与溶血性预测任务中的表现,探讨肽类溶血过程及蛋白溶解度变化的关键机制。所用数据集主要包括溶血、抗污染以及溶解度三类。其中:

溶血数据来源于DBAASP v3数据库,共包含9,316条由L型经典氨基酸组成的序列。

抗污染数据集则主要由短肽序列构成,长度集中在5–10个氨基酸残基之间,其LogP分布近似正态,样本在特征空间中表现出较好的聚类结构。

溶解度数据集来源于PROSO II注释的蛋白序列,其标签基于蛋白质结构计划(Protein Structure Initiative)的回顾性分析所得。

Bi-TEAM:用于化学修饰生物分子的统一跨尺度表征学习框架

Bi-TEAM要解决的,是现有单模态模型难以同时捕捉全局生物进化信息与局部化学结构细节这一核心难题。如下图所示,其核心思路是构建一种双视角表征体系,将进化生物空间与化学结构空间进行深度融合,从而为包含非经典氨基酸的肽序列提供更精准的建模能力。

Bi-TEAM探索统一的蛋白质表示空间

在整体架构上,模型以蛋白质语言模型构建的生物空间作为语义主干,充分利用其在大规模天然序列中学习到的进化规律与上下文关联。同时,引入化学语言模型来捕捉原子层面的结构信息,弥补蛋白质语言模型在处理化学修饰时的天然局限。两类模型在表征层面形成互补,共同拓展了输入序列的表达能力。

Bi-TEAM的网络架构

在处理含修饰的肽序列时,Bi-TEAM通过两条互补的信息流进行编码:一条为生物序列流,将修饰氨基酸映射为结构最接近的天然氨基酸,从而避免分词表膨胀,并保留可用于建模的进化语义;另一条为类SELFIES表征流,用于在原子层面精确描述修饰残基的官能团变化与化学键结构,为化学语言模型提供稳定的结构信息。

完成双流编码后,模型通过由位置感知修饰提示引导的双门控残差机制进行融合:以生物表征为语义主干,利用门控单元筛选并注入关键化学信号,同时保留生物特征的残差连接。这样一来,既保持了训练稳定性,也让模型在全局序列约束与局部化学变化之间建立有效关联。

在应用层面,Bi-TEAM具有良好的通用性。当处理不含修饰的天然蛋白序列时,模型可直接省略映射与定位步骤,无需调整整体架构即可适配常规蛋白任务。

训练策略上,研究采用「预训练-微调」的两阶段框架:首先分别在天然蛋白序列和小分子化学语料上对两类基础编码器进行领域适配预训练;随后通过多任务联合微调,让模型学习不同任务场景下生物特征与化学特征的融合规律,从而进一步提升整体泛化能力。

Bi-TEAM在穿透性环肽设计取得突破,成功率提升4.6倍

为验证Bi-TEAM在未知化学空间中的应用能力,该研究以无创药物递送为应用场景,聚焦靶向新生血管性年龄相关性黄斑变性(nAMD)治疗的细胞穿透性非经典环肽设计,系统开展了「预测-引导-分析」的全流程实验,评估模型在属性引导型分子设计中的表现。

nAMD是导致老年人不可逆失明的重要原因,其核心病理是VEGF驱动的脉络膜新生血管与渗漏。目前临床主要依赖玻璃体内注射大分子抗VEGF药物治疗,但这类药物难以穿透眼部生理屏障,长期注射也存在并发症与依从性问题。若能设计出既能特异性结合Aflibercept、又能促进其跨屏障转运的肽结合剂,将为无创滴眼液疗法提供新可能。相比易降解、半衰期短的线性肽,结构更稳定、通透性更强的环肽被认为是更理想的递送载体——这也是研究人员聚焦环肽设计的核心动机。

该研究首先开展了细胞穿透肽(CPPs)预测评估,为后续生成任务打下基础。数据集按照pLM4CPP标准方案构建,整合了CPPsite2.0、C2Pred、CellPPD等数据库。经过筛选去重后,得到1,399个阳性样本(实验验证的穿透肽)和4,080个阴性样本。对比模型包括SeqVec、ESM2、ProtT5等主流蛋白嵌入模型,评估指标涵盖ACC、BACC、Sn、Sp、MCC和AUC。

结果相当出色,Bi-TEAM在所有指标上均取得最佳表现:ACC较SeqVec提升5.52%,BACC较ESM2-480提升5.88%,Sn提升12.58%,Sp较ProtT5-XL BFD提升1.45%,MCC较SeqVec提升14.68%,AUC较ESM2-480提升8.45%。尤其是灵敏度与MCC的显著提升,说明模型在识别真实穿透肽方面优势明显。

在此基础上,研究进一步开展了属性引导的环肽生成实验。以BoltzDesign1为基线框架,在两种条件下分别生成了1,000条长度为10-20的环肽:一组仅采用默认结构约束,另一组在生成过程中引入Bi-TEAM作为额外梯度引导。

以Bi-TEAM预测对数几率大于0.5为成功标准。结果显示,传统方法生成具有细胞穿透性的环肽成功率仅为6.7%,而在Bi-TEAM引导下,这一数字提升到了30.7%。更重要的是,结构质量并未因此下降:生成的肽-Aflibercept复合物平均pLDDT超过0.82,说明模型在提升穿透性的同时,依然保持了良好的结构置信度和结合界面稳定性。

生成1000个样本的成功率

为理解背后的引导机制,研究人员进一步分析了生成序列的残基模式。已有研究表明,由色氨酸(W)、苯丙氨酸(F)和酪氨酸(Y)构成的疏水三联体,以及精氨酸(R)、赖氨酸(K)等正电荷残基,是细胞穿透肽实现膜转运的关键特征。

分析发现,在Bi-TEAM引导下,生成序列中疏水三联体与两个正电荷残基的共现频率显著提高,残基数量分布也呈现一致趋势。这一富集模式与已知的穿透肽结构-功能规律高度一致。这说明,Bi-TEAM不仅能捕捉相关生物机制,还能在生成过程中显著提高具有膜穿透特性的序列的出现概率。控制变量分析进一步排除了肽长度(10–20残基)的影响——模型确实将采样分布引导至了更有利于膜转运的化学-生物联合空间。

左:模型性能雷达图;
中:关键疏水残基丰度与穿透概率关系;
右:环肽长度与穿透概率关系

最后,该研究通过案例研究对结果进行了结构层面验证。研究人员首先展示了Aflibercept二聚体的三维结构,并根据静电势对其分子表面进行着色;随后利用AlphaFold3预测了设计环肽与Aflibercept的复合物结构。分析识别出两个潜在的环肽结合口袋:一个由三个环构成的疏水腔体,另一个由环结构与β折叠片段共同形成。这些结构信息为后续环肽优化及潜在临床应用提供了重要依据。

Aflibercept在静电表面电位图中的显示情况

聚焦多肽药物研发领域的技术创新

在肽科学领域,从基础研究到临床转化,全球科研机构都在积极探索新的技术路径与治疗方案。

例如,英国布里斯托大学生物化学学院的结构生物学团队,利用冷冻电镜和X射线晶体学等先进技术解析免疫系统的精细结构,并在此基础上开展结构引导的肽类药物设计。他们尝试设计能够精准激活人体补体系统的环肽分子,用于开发针对自身免疫疾病的下一代候选药物。

与此同时,伦敦国王学院与萨格勒布大学合作开展的ToxiCode项目,则探索了从动物毒液中发现新药的独特路径。这个项目结合人工智能与合成生物学,通过构建混合AI系统学习肽序列模式及其结构-活性关系,快速设计针对癌症、神经系统疾病和感染性疾病的新型生物活性肽,为可持续且符合伦理的药物发现提供了新的方法论框架。

可以看出,多肽药物研发正逐渐形成一种新的研究范式:结构生物学、人工智能与化学生物学不断交叉,基础研究与产业开发之间的边界也愈发模糊。新的分子往往诞生于跨学科的技术组合之中,而真正决定其能否走向临床的,则是从实验室发现到产业化体系之间那条逐步被打通的转化路径。在这个过程中,多肽分子因其介于小分子与大分子之间的独特属性,正在被重新认识,并在越来越多的疾病领域中展现出新的应用空间。

参考链接:
1.https://www.bristol.ac.uk/news/2025/november/bristol-researcher-awarded-over-850000-to-develop-new-treatments.html
2.https://www.kcl.ac.uk/news/kings-to-collaborate-in-venom-based-drug-discovery-project

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策