ICLR 2026 原子级蛋白质结合剂生成方法性能测评

2026-06-12阅读 0热度 0
SOTA

在计算生物学中,最硬核也最棘手的挑战,莫过于设计能与特定靶点精准结合的蛋白质。这一能力直接关联药物研发、生物治疗与酶工程等关键方向,实质上决定了我们干预复杂疾病、提升生物制造效率的极限。

从分子层面看,蛋白质与靶点能否“匹配”,本质上是一个三维结构问题。界面上的氨基酸组成、空间折叠方式以及分子间的相互作用,共同决定了结合的亲和力与特异性。因此,几乎所有结合剂设计方法最终都回归到“结构”这个核心变量,依赖结构解析或预测来指导分子构建。

近年来,机器学习的介入正在重组这一流程。结构预测与生成模型的突破,使研究摆脱了“无实验结构寸步难行”的困境。从“解析结构”到“生成结构”的转变,让从头设计结合剂成为可能,研发成本与周期大幅压缩。

尽管AI驱动的结合剂设计在推进,当下方法论的分裂仍然明显。以RFDiffusion为代表的生成式方法,通过大规模训练直接生成候选结构,但推理阶段灵活调整困难。以BindCraft为代表的幻觉式方法,依靠结构预测器的评分进行梯度优化,灵活性虽好,却缺乏生成先验,难以探索全新结构空间。这种“生成归生成、优化归优化”的格局,与自然语言和图像领域已成熟的“预训练模型+推理时计算扩展”统一范式相比,差距显著。

在此节点,英伟达、牛津大学、魁北克人工智能研究所等机构联合提出了Proteína-Complexa(简称Complexa)框架,目标明确:弥合生成式与幻觉式方法之间的断层,将基础生成模型与推理时优化机制整合为统一体系。基于Teddymer预训练,Complexa在从头设计结合剂上达到了SOTA水平,且无需额外的序列重新设计步骤。通过将扩散模型中的测试时缩放技术适配到该框架,生成与优化直接统一,性能超越传统幻觉式方法。

相关研究成果以「Scaling Atomistic Protein Binder Design with Generative Pretraining and Test-Time Compute」为题,入选ICLR 2026。

研究亮点:

  • 提出Complexa,将La-Proteina扩展至结合剂设计,利用Teddymer实现生成先验加速的高效推理时优化。
  • 在蛋白质和小分子靶点以及酶设计基准测试中,均达到最先进的计算机模拟成功率,且无需进行序列再设计。

论文地址:
https://openreview.net/forum?id=qmCpJtFZra

数据集:从“单体富集”到“复合体重构”

结合剂生成模型发展的根本瓶颈在于数据。理想情况下,模型需要大量“结合剂—靶点复合体”数据训练。但现实是,这类数据主要来自实验解析的蛋白质数据库(PDB),规模有限且高质量样本稀缺。而规模更大的AlphaFold数据库(AFDB)虽提供海量蛋白结构,却几乎全是单体,缺乏复合体信息。这种“单体丰富、复合体稀缺”的结构性缺口,直接限制了模型规模化训练能力。

本研究的核心突破,来自对AFDB内部结构的重新解读。AFDB中的蛋白大多是多结构域蛋白,结构域划分工具TED提供了精细注释。进一步分析发现,同一蛋白内部不同结构域之间的相互作用,在统计特性上与多链复合体中的相互作用高度相似。这一观察带来关键转变:单体结构并非“无用数据”,可被重新解读为潜在的复合体数据来源。

基于此,研究团队提出“人工多聚体构建”方法:将多结构域蛋白拆分为独立结构域,再作为不同链处理,从而在单体内部构造类复合体结构。具体流程:从AFDB50出发,筛选带TED注释的蛋白,拆分为“伪多聚体”,提取二聚体并按空间邻近性筛选,同时保留完整注释样本,最后聚类去冗余,得到约350万个二聚体簇(命名为Teddymer)。这一操作实质并非简单扩展数据规模,而是通过结构重组将“单体优势”转化为“复合体供给”。

训练过程中,研究整合了AFDB单体、Teddymer构造数据、PDB实验复合体以及PLINDER蛋白-配体数据,使模型在单体结构、复合体结构和小分子相互作用之间建立统一表示,兼顾生成能力与泛化能力。

Complexa所使用的经过筛选的训练数据集

Complexa:全原子蛋白质结合剂生成框架

在模型设计上,Complexa的核心变化不只是“生成能力更强”,而是将生成目标从“完整蛋白结构”转向“特定界面上的结合剂”。该框架构建于La-Proteína基础之上,具备全原子级别生成能力,依托高效Transformer架构,规避了传统结构模型中计算成本高的模块,在大规模采样场景下展现出良好扩展性。

研究引入了以靶点和界面热点为条件的生成机制。模型不再生成完整复合体,只生成结合剂部分,且生成过程明确依赖靶点信息。具体而言,流匹配模型在条件约束下生成结构,自编码器仅用于单体结合剂的编码与解码,既保持表达能力,又降低建模复杂度。

为使模型有效理解靶点信息,研究对输入表示进行了系统性设计。蛋白质靶点通过Atom37方式编码,将残基级三维坐标、氨基酸类型和界面热点信息统一输入模型,其中热点指示潜在结合区域。训练阶段热点由真实界面提取,推理阶段作为先验或通过预处理获得。对于小分子靶点,模型在原子层面编码类型、电荷和空间坐标,与结合剂表示一起输入Transformer进行联合建模。

训练目标的关键改进是对结合剂坐标引入随机全局平移噪声,迫使模型学习分子的空间定位能力。这在单体生成中不重要,但对将结合剂精确放置到靶点界面的任务而言,是决定生成质量的核心能力。整个训练流程采用分阶段策略:从单体建模到通用结构生成,再到结合剂专项训练,逐步推进。同时通过LoRA控制过拟合,并一直复用单体级自编码器,保持架构简洁。

推理阶段,Complexa引入了“测试时计算扩展”机制,将生成过程与搜索优化结合。通过增加采样数量、引入束搜索或蒙特卡洛树搜索等方法,模型可在更大计算预算下持续提升生成质量。这种设计使模型能力不再完全受限于训练阶段,而能在推理过程中动态扩展。

Complexa的目标条件生成过程

更高成功率、更快速度、更强可扩展性

为验证模型能力,研究设计了一组由浅入深的实验体系,核心问题:Complexa是否不仅在基础性能上更优,而且能随计算资源增加持续提升表现。

在基础生成能力上,无论蛋白质靶点还是小分子靶点任务,Complexa均显著优于现有方法。成功率更高,采样速度更快,生成结构的新颖性也明显提升。更重要的是,模型可直接输出高质量序列,无需依赖ProteinMPNN等工具进行二次设计,大幅简化整体流程。

与基线相比,Complexa在未优化蛋白质靶点上的生成效果

在结构可控性方面,通过引入条件标签,模型可显式控制生成结构类型(如α-螺旋或β-折叠),有效缓解了以往生成模型结构单一的问题,显著提升了结构多样性。

推理阶段计算扩展实验显示:在简单任务中,仅通过增加采样数量即可超越所有基线方法;在复杂任务中,引入更高级搜索策略(如束搜索、蒙特卡洛树搜索)后优势进一步拉大。这表明模型性能可随计算预算持续提升(如下图所示)。

不同目标难度下推理时间优化的规模分析

在物理合理性方面,研究进一步优化了界面氢键及相关能量指标。结果发现,模型不仅能生成结构合理的结合剂,还能在细粒度相互作用层面进行优化,从而提升结合稳定性。

在更具挑战性的多链靶点任务中,现有方法在有限计算预算下无法获得有效解。而Complexa在扩展计算资源后成功生成了高质量候选,展现了其在复杂问题上的可扩展性。最后,在酶设计等不同任务上的测试也表明,该框架具备良好的泛化能力,可从结合剂设计扩展到更广泛的蛋白质工程问题。

酶设计基准测试

AI蛋白质设计的范式转移

近年来,AI驱动的蛋白质结合剂设计正加速从理论走向实践。诺奖得主David Baker及其团队仍是这一领域的重要引领者。2025年,他们在Science上连续发表多项研究,系统验证了基于RFDiffusion设计高特异性pMHC结合剂的可行性。相关研究针对11类疾病靶点,成功生成了能驱动T细胞识别肿瘤的结合蛋白,并通过冷冻电镜在原子尺度上验证了设计精度,标志着AI设计开始具备可验证性。

与此同时,MIT团队在BoltzGen模型中探索了更一体化的路线,将结构预测和结合体生成统一到单一全原子模型中,并用连续几何表示替代传统离散建模。在26个靶标的实验中,66%获得了纳摩尔级亲和力的结合剂,且在分布外靶点上仍保持较高成功率,显示出良好的泛化能力。

产业界则更关注这些能力的工程化落地。2026年初,Bayer与Cradle达成三年合作,将AI蛋白质工程平台整合进抗体研发流程。该平台已在50多个项目中应用,可显著缩短研发周期,并支持“设计—测试—学习”闭环迭代。这预示着AI正从辅助工具转变为研发流程中的基础能力。

整体来看,蛋白质设计的竞争正从单一模型性能转向系统级效率和可扩展性。学术界持续推进模型能力边界,产业界则推动其进入稳定、可复用的研发流程。AI蛋白质设计由此进入更实际的阶段:关键不再是“能不能设计”,而是“能不能持续、高效地设计”。

参考链接:
1. https://news.bioon.com/article/00bf92186439.html
2. https://www.bayer.com/en/us/news-stories/ai-enabled-antibody-discovery-and-optimization

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策