VibeGen:MIT首个端到端动力学蛋白质生成模型,序列与振动双向映射
蛋白质是生命系统中最重要的功能分子之一,但其功能并非仅由静态结构决定——它深深植根于持续演变的构象动态之中。在复杂的能量景观上,蛋白质在飞秒到毫秒的多尺度运动中维持着精妙的动态平衡,这正是它被称为“分子机器”的根本原因。
正因为这种动态特性,当蛋白质的“运动”出现异常时,疾病便可能随之产生。肿瘤抑制蛋白p53依赖构象可塑性执行功能,而致癌突变恰恰会削弱这一能力;CFTR突变则通过扰乱门控动力学,直接引发囊性纤维化。这些案例揭示了一个核心事实:蛋白质的「运动」本身就是功能的关键决定因素。因此,从动力学角度理解甚至设计蛋白质,正成为结构生物学与生物工程领域最前沿的方向之一。
过去几十年,研究者们尝试了多种手段——核磁共振、氢氘交换质谱、冷冻电镜等实验技术,以及分子动力学模拟、简正振动模分析等计算方法,试图刻画蛋白质的动态行为。但这些方法要么流程复杂、难以规模化,要么计算成本高、时间尺度受限,始终无法支撑大规模研究需求。
近年来,深度学习与生成式AI为蛋白质研究注入了全新活力。以AlphaFold2为代表的模型已能高精度预测静态结构,也有方法可预测二级结构、结合位点甚至振动特征。然而,现有方法大多仍停留在「结构或单一属性」层面,缺乏对本征动力学的系统建模。在设计方面,RFdiffusion、AlphaFold3等框架仍将结构视为近似刚体,未真正纳入动力学约束。因此,建立「序列-结构-动力学-功能」的统一映射,并实现基于动力学的可控设计,仍是核心难题。
就在近期,MIT与卡内基梅隆大学联合团队提出了一种蛋白质生成智能体——VibeGen,它将序列生成与振动动力学预测相结合,实现了从头蛋白质设计。研究结果显示,该生成式智能体设计的蛋白质不仅能折叠成稳定且新颖的结构,还能在主链层面重现目标振动振幅的分布特征。
相关研究成果以「VibeGen: Agentic end-to-end de novo protein design for tailored dynamics using a language diffusion model」为题,发表于 Matter。
论文链接:
https://www.cell.com/matter/abstract/S2590-2385(26)00069-X
基于低频简正振动模的蛋白质动力学数据库构建
为搭建该数据库,研究人员从2024年1月更新的蛋白质数据库(PDB)中筛选出长度不超过126个氨基酸的蛋白质单链。随后,通过VMD、MMTSB和SCWRL4等工具对结构进行清洗与补全,基于CHARMM力场做能量最小化,最后利用块体简正振动模方法计算模态信息。去掉代表整体平动与转动的前6个刚体模后,选取最低频的非平凡模用于后续分析。
在此基础上,进一步提取主链各残基Cα原子的位移模长,构建简正振动模形状向量。结果极具启发性:振动位移呈现明显异质性——链末端及结构松散区域振幅较大,而α螺旋和β折叠等致密区域振动受限,转角与卷曲区因柔性较强,出现局部峰值。为消除长度差异的影响,对向量做归一化处理,使其成为独立于坐标系的动力学描述符。
最终,研究人员构建了一个包含12,924条蛋白质单链的数据集。分析显示,低频振动模式具有显著多样性,振幅峰值大多集中在链末端。该数据集按9:1比例划分为训练集与测试集,用于后续生成模型的训练与评估。
蛋白质正常模式分析及低频模式形状数据集整理
VibeGen:基于语言扩散模型的端到端从头蛋白质设计
该研究面临的核心挑战在于:简正振动模形状由蛋白质的复杂三维结构与弹性特性共同决定,序列与动力学之间缺乏直接映射关系;同时,单一模态信息存在高度简并性,不同序列可能对应相似的动力学特征,使逆设计问题尤为棘手。
为应对这些挑战,研究者先通过简正振动模分析与全原子分子动力学模拟,从PDB中提取大量蛋白质的关键动力学特征。在此基础上,构建了两个协同工作的蛋白质语言扩散模型:蛋白质设计模块(PD)与预测模块(PP),分别负责序列与简正振动模空间之间的正向预测与逆向设计。两个模块结构相似,均基于预训练蛋白质语言模型(pLM)与扩散模型的组合。
设计模块的任务是根据目标动力学特性生成序列。在去噪过程中,扩散模型通过多个通道将动力学条件信息融入,在隐空间中逐步生成符合目标特性的序列。预测模块结构对称,根据输入序列反向推断简正振动模形状,利用预训练语言模型输出的多种序列表征优化预测结果。
两个模块独立训练,在部署阶段组成「生成—评估—筛选」的闭环协同系统:设计模块先生成候选序列,预测模块实时评估其动力学表现,研究者可根据准确性或多样性需求筛选结果,必要时重复迭代,直至获得满意序列。
基于动态特征开发端到端蛋白质生成模型的工作流程
模型性能在测试集上得到验证。针对L型、U型、W型等多种典型简正振动模形状设计目标,模型生成的蛋白质经实际简正振动模分析验证,其振动形状与设计目标高度吻合。从皮尔逊相关系数及相对L2误差等定量指标来看,该方法能在复杂动力学约束下实现高精度设计。
从结构角度观察,生成的蛋白质呈现清晰的动力学对应关系:振动较强区域多为无规卷曲或柔性片段,而振动受限区域则倾向于形成α螺旋或β折叠等稳定结构,说明模型已有效捕捉到结构与动力学之间的内在关联。
在模型实现层面,设计模块与预测模块均采用ESM-2系列中1.5亿参数的中等规模预训练模型作为pLM,以平衡计算效率与模型性能。扩散模型通过U型网络的多个通道将条件信息整合至去噪过程,采用Adam优化器独立训练。
精度与新颖性的双重突破
为评估模型性能,研究从多个维度开展实验分析。多样性分析显示,针对同一动力学目标,模型能生成结构不同但功能一致的多种设计方案。以U型和L型简正振动模为例,设计得到的蛋白质均呈现「致密核心+开放末端」布局:末端为无规卷曲结构,对应高振幅区域;核心则可由α-螺旋束或螺旋-折叠混合结构等多种方式实现,对应低振幅区域。这种多样性主要源于低振动区域在结构选择上的自由度,模型成功捕捉并利用了这种「多解性」。
基于U型和L型条件生成的多种蛋白质序列
预测模块的有效性也通过对比实验得到验证。如下图所示,从同一组候选序列中选取预测最优与预测最差的两组,前者的实际设计精度显著高于后者(皮尔逊相关系数中位数0.53 vs 0.31),而预测模块对这两组的预测精度保持稳定。这意味着,在设计过程中引入预测模块,能有效筛选出高质量序列,减少对昂贵物理验证的依赖。
比较由蛋白质预测模块所确定的最优设计组和最差设计组
整体性能统计基于1,293个测试案例。如下图所示,实测简正振动模形状与设计目标的相关系数中位数为0.53,相对L2误差中位数为0.57,这反映了残基层级高精度设计本身的难度;经低通滤波保留整体形状后,相关系数中位数提升至0.72,误差中位数降至0.37,表明模型在捕捉振动整体轮廓方面表现尤为突出——这一特征对蛋白质的大规模构象动力学具有最重要的生物学意义。
在新颖性方面,BLAST最高序列一致性呈双峰分布,主峰对应从头设计序列,说明模型更倾向于生成新颖序列,有效拓展了潜在的蛋白质结构与动力学解决方案库。
基于独立测试集中1293个蛋白质测试蛋白质生成模型
结构与动力学关联在多组实验中一致显现:α-螺旋和β-折叠等致密结构多分布于低振幅区域,而高振幅区域多为环区或末端卷曲。模型成功捕捉了这一物理规律,能借助二级结构元件调控局部柔性,展现出对结构-动力学关系的深刻理解。
总体而言,该模型在动力学约束下的蛋白质设计中,实现了准确性、多样性与新颖性的较好平衡,为后续更复杂的功能设计奠定了基础。
智能体蛋白质生成与简正振动模逆设计的融合
智能体蛋白质生成与基于简正振动模形状的逆设计研究,正成为蛋白质工程领域的前沿热点,驱动学术探索与产业创新双向发力。
在学术界,多个高校团队围绕这一方向持续深耕,取得了一系列突破性成果。部分团队通过优化智能体协同框架,将简正振动模分析与更先进的蛋白质语言扩散模型相结合,有效缓解了逆设计中的简并性问题。相关工作进一步验证了简正振动模形状与蛋白质二级结构、动力学特性之间的内在关联,为从头设计特定功能蛋白质提供了更坚实的理论支撑与技术路径。
另有团队聚焦模型轻量化与泛化性,优化了预训练蛋白质语言模型的参数规模与训练策略,开发出更易推广的小型化模型,并将简正振动模逆设计的应用拓展至酶的催化位点设计、蛋白质结合剂优化等具体领域,为后续产业转化奠定了良好基础。
此外,谷歌DeepMind推出的AlphaProteo,作为首个用于设计新型高强度蛋白质粘合剂的人工智能工具,能为多种目标蛋白生成新的蛋白结合体,包括与癌症和糖尿病并发症相关的血管内皮生长因子A,在测试中实现了更高的实验成功率,其结合亲和力是现有最佳方法的3到300倍,有望加速抗癌、抗病毒等药物的研发,也为生物传感器开发、作物抗虫性提升等领域提供了新思路。
另有一些企业聚焦药物研发痛点,利用简正振动模形状逆设计技术,针对特定疾病靶点设计蛋白质药物,缩短研发周期、降低成本,推动蛋白质药物向更精准、高效的方向发展。
当前,学术界对设计精度与模型泛化能力的持续优化,与产业界对落地效率与应用场景的不断拓展,正共同推动蛋白质设计技术朝着更精准、更高效、更多元的方向迈进。未来,随着技术不断成熟,基于智能体与简正振动模分析的蛋白质设计方法,有望在医药健康、工业生产、生物制造等领域实现更广泛的应用,带来新的突破。





