ICLR 2026 原子级蛋白质结合剂生成方法性能测评

2026-06-12阅读 0热度 0

SOTA

在计算生物学中，最硬核也最棘手的挑战，莫过于设计能与特定靶点精准结合的蛋白质。这一能力直接关联药物研发、生物治疗与酶工程等关键方向，实质上决定了我们干预复杂疾病、提升生物制造效率的极限。

从分子层面看，蛋白质与靶点能否“匹配”，本质上是一个三维结构问题。界面上的氨基酸组成、空间折叠方式以及分子间的相互作用，共同决定了结合的亲和力与特异性。因此，几乎所有结合剂设计方法最终都回归到“结构”这个核心变量，依赖结构解析或预测来指导分子构建。

近年来，机器学习的介入正在重组这一流程。结构预测与生成模型的突破，使研究摆脱了“无实验结构寸步难行”的困境。从“解析结构”到“生成结构”的转变，让从头设计结合剂成为可能，研发成本与周期大幅压缩。

尽管AI驱动的结合剂设计在推进，当下方法论的分裂仍然明显。以RFDiffusion为代表的生成式方法，通过大规模训练直接生成候选结构，但推理阶段灵活调整困难。以BindCraft为代表的幻觉式方法，依靠结构预测器的评分进行梯度优化，灵活性虽好，却缺乏生成先验，难以探索全新结构空间。这种“生成归生成、优化归优化”的格局，与自然语言和图像领域已成熟的“预训练模型+推理时计算扩展”统一范式相比，差距显著。

在此节点，英伟达、牛津大学、魁北克人工智能研究所等机构联合提出了Proteína-Complexa（简称Complexa）框架，目标明确：弥合生成式与幻觉式方法之间的断层，将基础生成模型与推理时优化机制整合为统一体系。基于Teddymer预训练，Complexa在从头设计结合剂上达到了SOTA水平，且无需额外的序列重新设计步骤。通过将扩散模型中的测试时缩放技术适配到该框架，生成与优化直接统一，性能超越传统幻觉式方法。

相关研究成果以「Scaling Atomistic Protein Binder Design with Generative Pretraining and Test-Time Compute」为题，入选ICLR 2026。

研究亮点：

提出Complexa，将La-Proteina扩展至结合剂设计，利用Teddymer实现生成先验加速的高效推理时优化。
在蛋白质和小分子靶点以及酶设计基准测试中，均达到最先进的计算机模拟成功率，且无需进行序列再设计。

论文地址：
https://openreview.net/forum?id=qmCpJtFZra

数据集：从“单体富集”到“复合体重构”

结合剂生成模型发展的根本瓶颈在于数据。理想情况下，模型需要大量“结合剂—靶点复合体”数据训练。但现实是，这类数据主要来自实验解析的蛋白质数据库（PDB），规模有限且高质量样本稀缺。而规模更大的AlphaFold数据库（AFDB）虽提供海量蛋白结构，却几乎全是单体，缺乏复合体信息。这种“单体丰富、复合体稀缺”的结构性缺口，直接限制了模型规模化训练能力。

本研究的核心突破，来自对AFDB内部结构的重新解读。AFDB中的蛋白大多是多结构域蛋白，结构域划分工具TED提供了精细注释。进一步分析发现，同一蛋白内部不同结构域之间的相互作用，在统计特性上与多链复合体中的相互作用高度相似。这一观察带来关键转变：单体结构并非“无用数据”，可被重新解读为潜在的复合体数据来源。

基于此，研究团队提出“人工多聚体构建”方法：将多结构域蛋白拆分为独立结构域，再作为不同链处理，从而在单体内部构造类复合体结构。具体流程：从AFDB50出发，筛选带TED注释的蛋白，拆分为“伪多聚体”，提取二聚体并按空间邻近性筛选，同时保留完整注释样本，最后聚类去冗余，得到约350万个二聚体簇（命名为Teddymer）。这一操作实质并非简单扩展数据规模，而是通过结构重组将“单体优势”转化为“复合体供给”。

训练过程中，研究整合了AFDB单体、Teddymer构造数据、PDB实验复合体以及PLINDER蛋白-配体数据，使模型在单体结构、复合体结构和小分子相互作用之间建立统一表示，兼顾生成能力与泛化能力。

Complexa所使用的经过筛选的训练数据集

Complexa：全原子蛋白质结合剂生成框架

在模型设计上，Complexa的核心变化不只是“生成能力更强”，而是将生成目标从“完整蛋白结构”转向“特定界面上的结合剂”。该框架构建于La-Proteína基础之上，具备全原子级别生成能力，依托高效Transformer架构，规避了传统结构模型中计算成本高的模块，在大规模采样场景下展现出良好扩展性。

研究引入了以靶点和界面热点为条件的生成机制。模型不再生成完整复合体，只生成结合剂部分，且生成过程明确依赖靶点信息。具体而言，流匹配模型在条件约束下生成结构，自编码器仅用于单体结合剂的编码与解码，既保持表达能力，又降低建模复杂度。

为使模型有效理解靶点信息，研究对输入表示进行了系统性设计。蛋白质靶点通过Atom37方式编码，将残基级三维坐标、氨基酸类型和界面热点信息统一输入模型，其中热点指示潜在结合区域。训练阶段热点由真实界面提取，推理阶段作为先验或通过预处理获得。对于小分子靶点，模型在原子层面编码类型、电荷和空间坐标，与结合剂表示一起输入Transformer进行联合建模。

训练目标的关键改进是对结合剂坐标引入随机全局平移噪声，迫使模型学习分子的空间定位能力。这在单体生成中不重要，但对将结合剂精确放置到靶点界面的任务而言，是决定生成质量的核心能力。整个训练流程采用分阶段策略：从单体建模到通用结构生成，再到结合剂专项训练，逐步推进。同时通过LoRA控制过拟合，并一直复用单体级自编码器，保持架构简洁。

推理阶段，Complexa引入了“测试时计算扩展”机制，将生成过程与搜索优化结合。通过增加采样数量、引入束搜索或蒙特卡洛树搜索等方法，模型可在更大计算预算下持续提升生成质量。这种设计使模型能力不再完全受限于训练阶段，而能在推理过程中动态扩展。

Complexa的目标条件生成过程

更高成功率、更快速度、更强可扩展性

为验证模型能力，研究设计了一组由浅入深的实验体系，核心问题：Complexa是否不仅在基础性能上更优，而且能随计算资源增加持续提升表现。

在基础生成能力上，无论蛋白质靶点还是小分子靶点任务，Complexa均显著优于现有方法。成功率更高，采样速度更快，生成结构的新颖性也明显提升。更重要的是，模型可直接输出高质量序列，无需依赖ProteinMPNN等工具进行二次设计，大幅简化整体流程。

与基线相比，Complexa在未优化蛋白质靶点上的生成效果

在结构可控性方面，通过引入条件标签，模型可显式控制生成结构类型（如α-螺旋或β-折叠），有效缓解了以往生成模型结构单一的问题，显著提升了结构多样性。

推理阶段计算扩展实验显示：在简单任务中，仅通过增加采样数量即可超越所有基线方法；在复杂任务中，引入更高级搜索策略（如束搜索、蒙特卡洛树搜索）后优势进一步拉大。这表明模型性能可随计算预算持续提升（如下图所示）。

不同目标难度下推理时间优化的规模分析

在物理合理性方面，研究进一步优化了界面氢键及相关能量指标。结果发现，模型不仅能生成结构合理的结合剂，还能在细粒度相互作用层面进行优化，从而提升结合稳定性。

在更具挑战性的多链靶点任务中，现有方法在有限计算预算下无法获得有效解。而Complexa在扩展计算资源后成功生成了高质量候选，展现了其在复杂问题上的可扩展性。最后，在酶设计等不同任务上的测试也表明，该框架具备良好的泛化能力，可从结合剂设计扩展到更广泛的蛋白质工程问题。

酶设计基准测试

AI蛋白质设计的范式转移

近年来，AI驱动的蛋白质结合剂设计正加速从理论走向实践。诺奖得主David Baker及其团队仍是这一领域的重要引领者。2025年，他们在Science上连续发表多项研究，系统验证了基于RFDiffusion设计高特异性pMHC结合剂的可行性。相关研究针对11类疾病靶点，成功生成了能驱动T细胞识别肿瘤的结合蛋白，并通过冷冻电镜在原子尺度上验证了设计精度，标志着AI设计开始具备可验证性。

与此同时，MIT团队在BoltzGen模型中探索了更一体化的路线，将结构预测和结合体生成统一到单一全原子模型中，并用连续几何表示替代传统离散建模。在26个靶标的实验中，66%获得了纳摩尔级亲和力的结合剂，且在分布外靶点上仍保持较高成功率，显示出良好的泛化能力。

产业界则更关注这些能力的工程化落地。2026年初，Bayer与Cradle达成三年合作，将AI蛋白质工程平台整合进抗体研发流程。该平台已在50多个项目中应用，可显著缩短研发周期，并支持“设计—测试—学习”闭环迭代。这预示着AI正从辅助工具转变为研发流程中的基础能力。

整体来看，蛋白质设计的竞争正从单一模型性能转向系统级效率和可扩展性。学术界持续推进模型能力边界，产业界则推动其进入稳定、可复用的研发流程。AI蛋白质设计由此进入更实际的阶段：关键不再是“能不能设计”，而是“能不能持续、高效地设计”。

参考链接：
1. https://news.bioon.com/article/00bf92186439.html
2. https://www.bayer.com/en/us/news-stories/ai-enabled-antibody-discovery-and-optimization

ICLR 2026 原子级蛋白质结合剂生成方法性能测评

数据集：从“单体富集”到“复合体重构”

Complexa：全原子蛋白质结合剂生成框架

更高成功率、更快速度、更强可扩展性

AI蛋白质设计的范式转移

相关阅读

最新教程

最新资讯