VibeGen：MIT首个端到端动力学蛋白质生成模型，序列与振动双向映射

2026-06-15阅读 0热度 0

端到端

蛋白质是生命系统中最重要的功能分子之一，但其功能并非仅由静态结构决定——它深深植根于持续演变的构象动态之中。在复杂的能量景观上，蛋白质在飞秒到毫秒的多尺度运动中维持着精妙的动态平衡，这正是它被称为“分子机器”的根本原因。

正因为这种动态特性，当蛋白质的“运动”出现异常时，疾病便可能随之产生。肿瘤抑制蛋白p53依赖构象可塑性执行功能，而致癌突变恰恰会削弱这一能力；CFTR突变则通过扰乱门控动力学，直接引发囊性纤维化。这些案例揭示了一个核心事实：蛋白质的「运动」本身就是功能的关键决定因素。因此，从动力学角度理解甚至设计蛋白质，正成为结构生物学与生物工程领域最前沿的方向之一。

过去几十年，研究者们尝试了多种手段——核磁共振、氢氘交换质谱、冷冻电镜等实验技术，以及分子动力学模拟、简正振动模分析等计算方法，试图刻画蛋白质的动态行为。但这些方法要么流程复杂、难以规模化，要么计算成本高、时间尺度受限，始终无法支撑大规模研究需求。

近年来，深度学习与生成式AI为蛋白质研究注入了全新活力。以AlphaFold2为代表的模型已能高精度预测静态结构，也有方法可预测二级结构、结合位点甚至振动特征。然而，现有方法大多仍停留在「结构或单一属性」层面，缺乏对本征动力学的系统建模。在设计方面，RFdiffusion、AlphaFold3等框架仍将结构视为近似刚体，未真正纳入动力学约束。因此，建立「序列-结构-动力学-功能」的统一映射，并实现基于动力学的可控设计，仍是核心难题。

就在近期，MIT与卡内基梅隆大学联合团队提出了一种蛋白质生成智能体——VibeGen，它将序列生成与振动动力学预测相结合，实现了从头蛋白质设计。研究结果显示，该生成式智能体设计的蛋白质不仅能折叠成稳定且新颖的结构，还能在主链层面重现目标振动振幅的分布特征。

相关研究成果以「VibeGen: Agentic end-to-end de novo protein design for tailored dynamics using a language diffusion model」为题，发表于 Matter。

论文链接：
https://www.cell.com/matter/abstract/S2590-2385(26)00069-X

基于低频简正振动模的蛋白质动力学数据库构建

为搭建该数据库，研究人员从2024年1月更新的蛋白质数据库（PDB）中筛选出长度不超过126个氨基酸的蛋白质单链。随后，通过VMD、MMTSB和SCWRL4等工具对结构进行清洗与补全，基于CHARMM力场做能量最小化，最后利用块体简正振动模方法计算模态信息。去掉代表整体平动与转动的前6个刚体模后，选取最低频的非平凡模用于后续分析。

在此基础上，进一步提取主链各残基Cα原子的位移模长，构建简正振动模形状向量。结果极具启发性：振动位移呈现明显异质性——链末端及结构松散区域振幅较大，而α螺旋和β折叠等致密区域振动受限，转角与卷曲区因柔性较强，出现局部峰值。为消除长度差异的影响，对向量做归一化处理，使其成为独立于坐标系的动力学描述符。

最终，研究人员构建了一个包含12,924条蛋白质单链的数据集。分析显示，低频振动模式具有显著多样性，振幅峰值大多集中在链末端。该数据集按9:1比例划分为训练集与测试集，用于后续生成模型的训练与评估。

蛋白质正常模式分析及低频模式形状数据集整理

VibeGen：基于语言扩散模型的端到端从头蛋白质设计

该研究面临的核心挑战在于：简正振动模形状由蛋白质的复杂三维结构与弹性特性共同决定，序列与动力学之间缺乏直接映射关系；同时，单一模态信息存在高度简并性，不同序列可能对应相似的动力学特征，使逆设计问题尤为棘手。

为应对这些挑战，研究者先通过简正振动模分析与全原子分子动力学模拟，从PDB中提取大量蛋白质的关键动力学特征。在此基础上，构建了两个协同工作的蛋白质语言扩散模型：蛋白质设计模块（PD）与预测模块（PP），分别负责序列与简正振动模空间之间的正向预测与逆向设计。两个模块结构相似，均基于预训练蛋白质语言模型（pLM）与扩散模型的组合。

设计模块的任务是根据目标动力学特性生成序列。在去噪过程中，扩散模型通过多个通道将动力学条件信息融入，在隐空间中逐步生成符合目标特性的序列。预测模块结构对称，根据输入序列反向推断简正振动模形状，利用预训练语言模型输出的多种序列表征优化预测结果。

两个模块独立训练，在部署阶段组成「生成—评估—筛选」的闭环协同系统：设计模块先生成候选序列，预测模块实时评估其动力学表现，研究者可根据准确性或多样性需求筛选结果，必要时重复迭代，直至获得满意序列。

基于动态特征开发端到端蛋白质生成模型的工作流程

模型性能在测试集上得到验证。针对L型、U型、W型等多种典型简正振动模形状设计目标，模型生成的蛋白质经实际简正振动模分析验证，其振动形状与设计目标高度吻合。从皮尔逊相关系数及相对L2误差等定量指标来看，该方法能在复杂动力学约束下实现高精度设计。

从结构角度观察，生成的蛋白质呈现清晰的动力学对应关系：振动较强区域多为无规卷曲或柔性片段，而振动受限区域则倾向于形成α螺旋或β折叠等稳定结构，说明模型已有效捕捉到结构与动力学之间的内在关联。

在模型实现层面，设计模块与预测模块均采用ESM-2系列中1.5亿参数的中等规模预训练模型作为pLM，以平衡计算效率与模型性能。扩散模型通过U型网络的多个通道将条件信息整合至去噪过程，采用Adam优化器独立训练。

精度与新颖性的双重突破

为评估模型性能，研究从多个维度开展实验分析。多样性分析显示，针对同一动力学目标，模型能生成结构不同但功能一致的多种设计方案。以U型和L型简正振动模为例，设计得到的蛋白质均呈现「致密核心+开放末端」布局：末端为无规卷曲结构，对应高振幅区域；核心则可由α-螺旋束或螺旋-折叠混合结构等多种方式实现，对应低振幅区域。这种多样性主要源于低振动区域在结构选择上的自由度，模型成功捕捉并利用了这种「多解性」。

基于U型和L型条件生成的多种蛋白质序列

预测模块的有效性也通过对比实验得到验证。如下图所示，从同一组候选序列中选取预测最优与预测最差的两组，前者的实际设计精度显著高于后者（皮尔逊相关系数中位数0.53 vs 0.31），而预测模块对这两组的预测精度保持稳定。这意味着，在设计过程中引入预测模块，能有效筛选出高质量序列，减少对昂贵物理验证的依赖。

比较由蛋白质预测模块所确定的最优设计组和最差设计组

整体性能统计基于1,293个测试案例。如下图所示，实测简正振动模形状与设计目标的相关系数中位数为0.53，相对L2误差中位数为0.57，这反映了残基层级高精度设计本身的难度；经低通滤波保留整体形状后，相关系数中位数提升至0.72，误差中位数降至0.37，表明模型在捕捉振动整体轮廓方面表现尤为突出——这一特征对蛋白质的大规模构象动力学具有最重要的生物学意义。

在新颖性方面，BLAST最高序列一致性呈双峰分布，主峰对应从头设计序列，说明模型更倾向于生成新颖序列，有效拓展了潜在的蛋白质结构与动力学解决方案库。

基于独立测试集中1293个蛋白质测试蛋白质生成模型

结构与动力学关联在多组实验中一致显现：α-螺旋和β-折叠等致密结构多分布于低振幅区域，而高振幅区域多为环区或末端卷曲。模型成功捕捉了这一物理规律，能借助二级结构元件调控局部柔性，展现出对结构-动力学关系的深刻理解。

总体而言，该模型在动力学约束下的蛋白质设计中，实现了准确性、多样性与新颖性的较好平衡，为后续更复杂的功能设计奠定了基础。

智能体蛋白质生成与简正振动模逆设计的融合

智能体蛋白质生成与基于简正振动模形状的逆设计研究，正成为蛋白质工程领域的前沿热点，驱动学术探索与产业创新双向发力。

在学术界，多个高校团队围绕这一方向持续深耕，取得了一系列突破性成果。部分团队通过优化智能体协同框架，将简正振动模分析与更先进的蛋白质语言扩散模型相结合，有效缓解了逆设计中的简并性问题。相关工作进一步验证了简正振动模形状与蛋白质二级结构、动力学特性之间的内在关联，为从头设计特定功能蛋白质提供了更坚实的理论支撑与技术路径。

另有团队聚焦模型轻量化与泛化性，优化了预训练蛋白质语言模型的参数规模与训练策略，开发出更易推广的小型化模型，并将简正振动模逆设计的应用拓展至酶的催化位点设计、蛋白质结合剂优化等具体领域，为后续产业转化奠定了良好基础。

此外，谷歌DeepMind推出的AlphaProteo，作为首个用于设计新型高强度蛋白质粘合剂的人工智能工具，能为多种目标蛋白生成新的蛋白结合体，包括与癌症和糖尿病并发症相关的血管内皮生长因子A，在测试中实现了更高的实验成功率，其结合亲和力是现有最佳方法的3到300倍，有望加速抗癌、抗病毒等药物的研发，也为生物传感器开发、作物抗虫性提升等领域提供了新思路。

另有一些企业聚焦药物研发痛点，利用简正振动模形状逆设计技术，针对特定疾病靶点设计蛋白质药物，缩短研发周期、降低成本，推动蛋白质药物向更精准、高效的方向发展。

当前，学术界对设计精度与模型泛化能力的持续优化，与产业界对落地效率与应用场景的不断拓展，正共同推动蛋白质设计技术朝着更精准、更高效、更多元的方向迈进。未来，随着技术不断成熟，基于智能体与简正振动模分析的蛋白质设计方法，有望在医药健康、工业生产、生物制造等领域实现更广泛的应用，带来新的突破。

VibeGen：MIT首个端到端动力学蛋白质生成模型，序列与振动双向映射

基于低频简正振动模的蛋白质动力学数据库构建

VibeGen：基于语言扩散模型的端到端从头蛋白质设计

精度与新颖性的双重突破

智能体蛋白质生成与简正振动模逆设计的融合

相关阅读

最新教程

最新资讯