MIT Pichia-CLM模型突破：酵母外源蛋白产量提升3倍

2026-06-11阅读 0热度 0

hyperai

在生物制药与工业生物技术领域，重组蛋白的高效表达，始终是决定生产成本与工艺可行性的核心变量。从单克隆抗体、疫苗抗原因到工业酶制剂，表达水平的哪怕微小提升，都可能带来显著的经济价值——换句话说，每多产一克蛋白，都意味着实实在在的成本下降和利润空间。

在众多表达系统中，毕赤酵母（Komagataella phaffii）凭借其高密度发酵能力、成熟的分泌表达体系以及良好的蛋白加工能力，已经成为工业生产的重要宿主之一。但一个长期困扰行业的问题是：即便氨基酸序列完全一致，仅仅修改编码DNA中的“同义密码子”，就可能导致表达量出现数量级差异。这背后有关键的因素在起作用——密码子使用偏好性（Codon Usage Bias, CUB）。在很多生物体中，某些同义密码子会被优先使用；这种选择会通过影响转录、mRNA稳定性、翻译、蛋白质折叠、翻译后修饰乃至溶解性，最终影响蛋白产量。所以，“密码子优化”也就成了外源蛋白表达的关键一步。

目前，业界已经开发了不少基于宿主CUB的密码子优化工具和方法。但坦率地说，这些方法仍无法稳定地产生高表达构建体。近些年，随着人工智能尤其是序列建模技术的兴起，研究者开始将基因序列视为一种“语言”，尝试用类似自然语言处理的方法来学习其中的隐含规则。

在这一背景下，来自麻省理工学院的研究团队提出了一种基于深度学习的语言模型——Pichia-CLM，专门用于在工业相关宿主毕赤酵母中进行密码子优化，以提升重组蛋白产量。与传统依赖CUB指标的方法不同（后者通常只提供全局评分，忽略了序列上下文），Pichia-CLM利用宿主基因组数据，无偏地学习氨基酸到密码子的映射关系。研究团队在6类不同复杂度的蛋白上进行了实验验证，并将其与4种商业化密码子优化工具做了对比——结果始终观察到更高的表达产量。

相关成果以“Pichia-CLM: A language model–based codon optimization pipeline for Komagataella phaffii”为题，已正式发表于《PNAS》。

研究亮点：

Pichia-CLM利用宿主基因组数据，无偏地学习氨基酸到密码子的映射关系，不仅考虑宿主偏好，还能捕捉位置依赖性和长程上下文关系
在6类不同复杂度的蛋白上进行实验验证，始终观察到更高的表达产量
模型学习到的氨基酸和密码子嵌入能够根据理化性质进行分组，说明语言模型捕捉到了具有物理意义的规律

论文地址：

https://www.pnas.org/doi/10.1073/pnas.2522052123

构建以毕赤酵母为中心的大规模序列数据集

与传统依赖经验规则的方法不同，Pichia-CLM的核心思想在于直接让模型从宿主基因组中学习编码规律。为此，研究团队构建了一个以毕赤酵母为中心的大规模序列数据集。

为了训练Pichia-CLM，研究人员从NCBI收集了两种毕赤酵母变体的氨基酸序列和编码序列数据：CBS7435和GS115。此外，他们还补充了其实验室此前完成的基因组测序与注释数据，包括GS115、K. phaffii（NRRL Y11430）以及K. pastoris——最终一共使用了约27,000对氨基酸–编码序列数据。

在数据处理过程中，研究人员对氨基酸和密码子进行了标记化（tokenization），并引入了起始（）、终止（）和填充（）标记，以便模型能处理不同长度的序列并支持批量训练。同时，数据集被划分为训练集与测试集，其中约20%用于评估模型在未见数据上的预测能力。

值得注意的是，这种数据构建方式并未人为引入任何“优化目标”，而是完全基于天然基因组数据。这意味着，模型学到的是宿主真实的表达偏好，而非人为设定的近似规则——这为后续的性能提升打下了坚实基础。

Pichia-CLM采用基于GRU的编码器–解码器架构

模型架构

Pichia-CLM采用基于门控循环单元（GRU）的编码器–解码器架构。GRU是一种改进型循环神经网络结构，擅长捕捉序列数据中的长程和短程依赖关系。通过门控机制调节信息流动，GRU有效缓解了传统RNN中常见的梯度消失问题。此外，GRU在性能上可与长短期记忆网络（LSTM）相媲美，但所需参数更少、计算资源消耗更低，因此在许多序列建模任务中更具效率优势。

相比另一类主流架构Transformer，GRU在中小规模数据集上具有更高的计算效率与更低的资源消耗。研究表明，在约2.7万条序列规模的数据条件下，引入Transformer反而会增加不必要的复杂度，而GRU能在性能与效率之间取得更优的平衡。

模型以蛋白质的氨基酸序列作为输入，并根据从宿主氨基酸序列和编码序列中学习到的模式生成相应的DNA序列，整体架构如下图所示：

Pichia-CLM的工作流程及示意图

模型训练过程

在训练过程中，研究人员使用验证集（训练集的20%）进行早停（early stopping）以优化参数。同时，以验证集损失（稀疏分类交叉熵）最小化为目标进行超参数选择。超参数优化采用贝叶斯优化这一全局优化策略，并结合研究人员内部开发的代码实现。

具体而言，模型中涉及以下超参数：

氨基酸嵌入维度
密码子嵌入维度
编码器层的单元数
解码器中密码子全连接层的大小
解码器中氨基酸全连接层的大小

在模型训练阶段，解码器输入为真实的编码序列（即真实密码子）。而在预测阶段，模型使用前一位置预测得到的密码子作为下一位置的输入，从而实现完全自回归预测。当遇到终止密码子时，序列预测终止。

在完成架构选择并在测试集上验证预测能力后，研究人员使用完整数据集重新训练最终模型，并继续采用早停策略以避免过拟合。该最终模型被用于设计外源蛋白的编码序列。

Pichia-CLM能够生成高产蛋白的构建体

在实验验证部分，研究团队选取了6种具有不同复杂度的蛋白进行测试，包括：

人生长激素（hGH）
人粒细胞集落刺激因子（hGCSF）
VHH纳米抗体3B2（34）
工程化SARS-CoV-2 RBD亚基变体（RBD）（35）
人血清白蛋白（HSA）
IgG1单克隆抗体曲妥珠单抗（Trast）

Pichia-CLM在毕赤酵母中提升蛋白分泌的性能

首先，研究人员选择了3种来源于人类、具有不同大小和复杂度的蛋白：hGH、hGCSF和HSA，比较了使用Pichia-CLM生成的基因构建体与其天然编码序列在蛋白分泌产量（滴度）上的差异。总体来看，对于hGH和hGCSF等蛋白，产量提升约为25%；而对于HSA，则观察到了约3倍的显著提升。

接下来，研究人员将Pichia-CLM与4种商业密码子优化工具进行了比较：Azenta、IDT、GenScript和Thermo Fisher（Thermo），针对前述6种蛋白进行了评估，采用了两个指标：

BestTiter：某方法获得最高滴度的蛋白数量
Aggregated Score（综合得分）：不同蛋白相对滴度（归一化至最大值）的总和

总体来看，Pichia-CLM在这两个指标上均优于商业算法（如图C所示）；它在6种蛋白中有5种取得了最高滴度，仅在HSA上因滴度略低而导致综合得分略微下降（约0.2）（如图D所示）。

(D) 不同分子中，Pichia-CLM与各商业算法在密码子优化效率上的比较

遗传序列特性的评估

在验证了Pichia-CLM在外源蛋白生产方面的性能之后，研究人员进一步分析了不同设计构建体的遗传序列特性。包括其他已报道的蛋白语言模型在内，密码子优化通常依赖一种或多种密码子使用偏好性（CUB）指标进行设计或评估。因此，他们利用6种测试蛋白的数据评估了这些CUB指标与蛋白产量之间的相关性。

结果表明，这些指标均未能在不同蛋白之间与产量表现出一致且较高的相关性。例如，在HSA的情况下（如图A所示），与密码子波动性和密码子频率分布（CFD）的最大正相关仅为0.43，而与密码子对评分（CPS）的最大负相关也仅为0.25。

在实验测试蛋白中，Pichia-CLM与商业算法设计序列中预测的负向顺式调控元件数量比较

基于整条序列计算的全局CUB指标在表征与外源蛋白生产相关的特征方面存在明显的局限性。这进一步说明，我们需要新的评价指标来评估密码子优化工具，并结合多样化蛋白的严格实验验证——这一结果直接挑战了传统密码子优化的理论基础。

序列特征评估

研究人员还评估了不同密码子优化构建体中负向顺式调控元件的存在情况。这些元件可能干扰宿主的调控机制，因此在外源DNA序列中应尽量避免。

在6种测试蛋白中，采用Pichia-CLM设计的构建体均未检测到负向顺式调控元件；相比之下，GenScript在6种蛋白中有3种包含1个负向顺式调控元件；Azenta和IDT在至少一种蛋白中产生了含有3至4个此类元件的序列，如下图所示。

在52种生物技术相关基准蛋白中，Pichia-CLM与GenScript优化序列中负向顺式调控元件分布的比较

研究人员也分析了Pichia-CLM在52种生物技术相关蛋白中的表现，结果显示：75%的蛋白序列完全不含负向顺式调控元件，剩余25%最多仅含2个此类元件。相比之下，表现最好的商业算法GenScript在约15%的蛋白中仍产生了含3至6个负向顺式调控元件的构建体。

基于预测RNA结构自由能，对不同构建体的RNA稳定性进行比较（Pichia-CLM与商业算法）

综合来看，这些结果表明，Pichia-CLM不仅能够生成高产蛋白的构建体，还能够学习关键的遗传序列特征，在多种因素之间实现平衡，从而设计出适用于宿主表达的稳健编码序列。

AI加速蛋白质生产工业化进程

在生物医药产业中，提高蛋白质的生产效率始终是决定研发转化与商业化成败的关键。从单克隆抗体到重组疫苗，再到各类融合蛋白与酶制剂，市场需求持续增长，对产量、稳定性与一致性的要求也不断提高。

围绕这一目标，业界已经形成了多层次的优化体系：在宿主层面，除传统的大肠杆菌与酿酒酵母外，毕赤酵母与哺乳动物细胞因其更优的翻译后修饰能力与表达效率，已成为主流生产平台；在分子设计层面，除了密码子优化，还包括启动子强度调控、信号肽筛选、mRNA结构工程以及蛋白折叠与分泌路径优化；而在工艺层面，高密度发酵、补料策略优化以及生物反应器参数控制，同样对最终产量起决定性作用。

在这一体系之外，一类“去细胞化”的技术路径正在迅速崛起，即无细胞蛋白质合成（Cell-Free Protein Synthesis, CFPS）。该技术绕过细胞生长过程，直接利用细胞裂解液中的转录翻译系统，实现蛋白的快速表达，已广泛应用于抗体、酶乃至抗体偶联药物的开发与生产。然而，CFPS体系本身是一个高度复杂的多变量系统，涉及DNA模板、酶体系、能量供体、氨基酸与离子环境等数十种组分，其组合空间极其庞大，传统依赖经验的优化方式往往难以在成本与产量之间取得理想平衡。

在这一背景下，人工智能驱动的自动化优化展现出碘伏性潜力。近日，OpenAI携手合成生物学头部企业Ginkgo Bioworks发布了重磅研究成果。基于GPT-5大语言模型构建的“闭环自动化系统”，成功实现了无细胞蛋白质合成（CFPS）技术的双重优化——将该技术的总生产成本降低40%，试剂成本大幅削减57%，同时蛋白质合成效价提升27%。

未来，类似思路也会向更广泛的生物制造场景扩展。从细胞工厂的代谢路径优化，到发酵过程的实时控制，再到表达构建体的智能设计，人工智能正逐步嵌入蛋白药物生产的各个环节。

参考文献：

https://www.pnas.org/doi/10.1073/pnas.2522052123
https://phys.org/news/2026-02-ai-yeast-dna-language-boost.html#google_vignette
https://mp.weixin.qq.com/s/Qkl6j9HcFB7W_Y5Xh-9BCw