mRNA药物设计新突破：AI协同优化UTR与CDS

2026-06-23阅读 0热度 0

人工智能

（来源：DrugAI）

mRNA疫苗与治疗药物正从概念验证向多疾病适应症拓展，一个紧迫的核心命题随之凸显：如何在mRNA序列中精确平衡翻译效率、稳定性、免疫原性与可制造性？这已成为下一代核酸药物设计的枢纽问题。与传统小分子或重组蛋白药物不同，mRNA药物的药效学与药代动力学特征高度依赖于其核苷酸序列本身。5′非翻译区（5′UTR）、编码序列（CDS）和3′UTR等关键结构元件，协同决定了蛋白表达水平及药物在体内的最终表现。

近日，中国科学院上海药物研究所李叙潼、郑明月团队在《Journal of Advanced Research》发表综述论文“Transforming mRNA drug design with AI: From UTR and codon optimization to coordinated design”。该文系统梳理了人工智能在UTR设计、CDS优化以及UTR-CDS协同设计中的最新进展，重点剖析了数据基础、评价指标与算法框架，并明确指出当前亟待攻克的核心瓶颈：数据标准化、模型泛化、多目标权衡以及模型可解释性。

引言

mRNA作为基因表达与蛋白质合成的信使，如今已跃升为疫苗、癌症免疫治疗及蛋白替代疗法的重要技术平台。SARS-CoV-2 mRNA疫苗的大规模临床验证，有力证明了mRNA药物能够在极短周期内完成设计开发，并在特定适应症中提供有效保护。更重要的是，mRNA药物无需进入细胞核、不会整合至基因组，其表达具有可逆性与可调控性，制造流程亦具备平台化优势。

图1. AI在mRNA设计中的总体框架。 （A）mRNA结构元件及其优化范围：UTR设计、密码子设计和多区域协同设计分别作用于5′UTR、CDS和3′UTR等调控层级。（B）从传统规则驱动设计向AI驱动设计的转变：AI融合数据预测、生成建模与序列空间搜索，优先获得性质更优的mRNA候选序列。

如图1A所示，一个成熟的真核mRNA由5′端帽结构、5′UTR、编码序列（CDS）、3′UTR和Poly(A)尾等模块构成，通常还与假尿苷或N1-甲基假尿苷等核苷修饰协同发挥功能。5′端帽与Kozak序列影响核糖体起始识别；UTR与CDS的二级结构及局部密码子组成共同调控扫描、起始与延伸过程；3′UTR中的顺式调控元件则参与mRNA的定位、稳定性与降解调控。

从分子设计视角看，mRNA序列优化是一个在强生物学与生物物理约束下的高维组合优化问题。以SARS-CoV-2刺突蛋白为例，其同义编码空间理论上可达约10^632种序列。尽管这些序列编码相同的多肽，但在二级结构稳定性、翻译效率（TE）等关键性质上可能相差数个数量级。如图1B所示，传统策略多依赖启发式规则与低至中通量实验，仅能探索局部序列区域，且难以同时平衡TE、稳定性与免疫原性。此外，若将UTR与CDS解耦分别优化，则可能忽视全长分子内部的长程调控作用，削弱模型在复杂生物体系中的泛化能力。

人工智能（AI）的引入，为突破上述组合设计瓶颈提供了全新范式。深度学习表征模型能够从大规模异质数据中学习序列、结构与功能之间的非线性关系，用于预测TE、mRNA稳定性、蛋白表达水平及先天免疫激活等关键性质。在此基础上，生成模型与优化模型可将这些预测器作为评分函数，在同义编码序列变体与UTR构型构成的巨大联合空间中，进行目标导向的搜索，从而在多种药理学约束之间找到更优权衡。随着相关计算模型快速涌现，mRNA设计范式正从单一区域优化转向UTR与CDS的协同设计，包括交替优化、模块化生成、整合评分与全长表征学习等策略。因此，本文从UTR、CDS以及UTR-CDS协同设计三个层次，系统梳理AI驱动的mRNA序列工程方法，重点讨论表征模型与生成/优化模型两条方法学主线，并进一步分析数据碎片化、跨体系泛化不足、多目标药理学建模有限以及模型可解释性不足等挑战，展望标准化开放数据平台、多模态基础模型与闭环“设计-构建-测试-学习”框架的发展方向。

数据

本文将AI辅助mRNA设计所依赖的数据概括为多层级体系。第一类数据来自公共数据库与大规模多组学项目，如Ensembl、RefSeq、GENCODE、UniProt、GTEx和Human Protein Atlas等。这些数据库提供CDS与UTR注释、蛋白目标集合、组织表达谱、RNA-seq和Ribo-seq等信息，可用于构建自监督预训练语料、估计密码子使用偏好、分析UTR基序分布，以及近似标注翻译效率与核糖体占据情况。

公共数据覆盖面广，但局限性明显：它们大多反映稳态测量结果，而非可控扰动下的因果效应。此外，表达水平还受启动子活性、剪接、核输出与降解等多种因素共同影响。单纯依赖公共数据，通常难以精确判断特定UTR片段或少量密码子替换对翻译效率与稳定性的具体影响。为获得更可控的监督信号，当前多数研究采用合成报告基因文库与大规模并行报告实验（MPRA），在统一的载体与启动子背景下系统改变5′UTR、3′UTR或CDS片段，并测定转录输出、核糖体负载、报告活性或蛋白表达。

第三类数据来自体外与体内功能验证，规模较小但更贴近药物开发真实场景。这类数据涵盖不同细胞系中的蛋白表达、抗原表达、mRNA稳定性、组织分布、免疫原性及抗体滴度等终点指标。本文强调，当前数据景观最突出的问题是高度定制化、原始数据共享不足，以及缺乏统一基准。不同研究的文库长度、随机化策略、修饰体系与细胞模型差异显著，导致性能指标往往仅能在原始数据集内部解释，难以进行严格横向比较。未来亟需构建覆盖多细胞类型、多时间尺度与多核苷修饰条件的开放数据集，并配套标准化评测流程。

评价指标

mRNA在细胞内的生命周期涉及折叠、翻译起始、延伸与降解等多个耦合过程，因此没有任何单一指标能完整表征药物性质。本文将常用指标分为四类：序列统计与生物物理特征、热力学稳定性、动态翻译动力学，以及药效学与可开发性终点。这些指标既是AI模型的优化目标，也是模型比较与实验验证的基准。

在结构与序列层面，最小自由能（MFE）常用于描述RNA二级结构的稳定性。CDS优化还经常使用密码子适应指数（CAI）、最优密码子频率（Fop）和有效密码子数（ENC）等指标。但需注意，CAI和Fop依赖宿主背景、参考基因集与计算方法；ENC仅能反映密码子使用偏倚的强度，无法直接说明其是否有利于特定宿主的翻译过程。

在功能层面，平均核糖体负载（MRL）、翻译效率（TE）、mRNA半衰期、蛋白表达水平（EL）及免疫原性，更贴近药物开发实际需求。本文指出，临床级mRNA设计必须从单一的“表达最大化”转向多目标优化，在高表达、长半衰期、低免疫原性、组织特异性与制造可行性之间，寻找可解释、可验证的折中方案。

UTR设计

UTR是mRNA药物序列中最直接调控翻译起始、稳定性与细胞类型响应的顺式作用元件。5′UTR影响核糖体识别、扫描与起始密码子选择；3′UTR则通过RNA结合蛋白和miRNA等机制调控mRNA定位、半衰期与降解过程。传统UTR设计大多直接借用高表达内源基因的UTR模板，或通过引入Kozak共识序列、删除上游开放阅读框与AU-rich元件等方式降低翻译抑制与降解风险。这些策略对早期开发确有帮助，但本质上是经验迁移，难以系统探索广阔UTR空间。在此背景下，基于AI的数据驱动方法为突破这些设计瓶颈提供了新机遇。对于mRNA治疗药物而言，AI模型既可作为预测器，估计候选UTR在指定细胞环境中的翻译水平与稳定性；也可作为设计器，从头生成满足预设药理属性的合成UTR，推动设计范式从“经验模仿天然UTR”向“精准的性质驱动设计”转变。

当前UTR设计正从单个预测器走向“预训练-微调-实验验证”的基础模型框架。预训练阶段（图2A）不仅可使用天然5′UTR序列，还可整合CDS、3′UTR、RNA-seq、Ribo-seq与MPRA文库等多来源数据。模型通过掩码核苷酸预测、二级结构与MFE预测等自监督任务，学习序列语法、结构约束与跨物种保守信息。这一步的意义在于，模型不再局限于记忆某个报告文库中的局部k-mer特征，而是形成对UTR调控语法的通用表征，为后续在少量高质量标注数据上进行任务微调奠定坚实基础。微调阶段（图2B），预训练模型可适配至平均核糖体负载（MRL）、翻译效率（TE）、mRNA稳定性、半衰期、免疫原性与组织特异性等下游任务。同时，预测任务与设计任务可整合在同一流程中：一方面，模型作为评分器对候选UTR预测表达、稳定性或免疫相关风险；另一方面，模型作为生成器或优化器直接输出5′UTR、3′UTR甚至全长mRNA候选序列。这些候选序列随后需经过体外筛选与体内测试，最终进入mRNA药物开发场景。

图2. mRNA基础模型的预训练与微调框架。 （A）利用大规模序列数据库与多组学谱进行自监督预训练，通过掩码核苷酸预测、结构建模等任务学习可泛化表示。（B）预训练模型可在MRL、TE、稳定性、免疫原性、UTR设计和CDS优化等下游任务中微调，并与体外和体内验证衔接。

早期UTR建模以判别式预测为主。例如，Optimus 5-Prime利用CNN从MPRA文库学习5′UTR与MRL的关系，并可结合遗传算法进行逆向设计；Frame Pooling则加入阅读框信息以适应可变长UTR。随后，Random Forest、MTtrans、UTR-LM与UTR-Insight等方法分别引入手工特征、多任务学习、Transformer预训练与CNN-Transformer解码，推动模型从局部k-mer记忆走向更通用的调控表征。尤其是UTR-LM与UTR-Insight这类模型，更接近图2所示的框架：先从大规模序列中学习通用表示，再针对MRL、TE或表达水平进行微调与筛选。

生成式AI也开始直接参与UTR设计。UTRGAN、Smart5UTR、PARADE与MOBO-5UTR等方法，可在潜在空间中搜索高表达、低毒性、组织特异性或多目标平衡的UTR序列。其中，Smart5UTR面向m1Ψ修饰的mRNA疫苗，PARADE强调细胞类型选择性，而MOBO-5UTR则将TE、稳定性、碱基组成与结构风险均纳入同一优化框架。

总体来看，AI使UTR设计从有限的天然模板筛选，迈向可预测、可生成、可多目标优化的新阶段。未来关键挑战在于提升模型从合成文库到真实内源mRNA、从体外体系到体内药物场景的泛化能力，并通过实验验证建立更可靠的闭环设计平台。

CDS优化

CDS优化是提升mRNA翻译效率、缓解蛋白表达瓶颈的核心策略，其做法是在冗余的遗传密码中优先选择有利的同义密码子。由于密码子使用具有简并性，即便是绿色荧光蛋白（GFP）这类相对较短的蛋白，其理论同义编码空间也是一个天文数字；而SARS-CoV-2刺突蛋白等大型病毒抗原，产生的组合序列空间则更为庞大。这些同义设计空间的规模之大，使穷举枚举与暴力搜索在计算上完全不可行。

高表达宿主通常具有密码子使用偏好，最优密码子往往与更丰富的tRNA池相关联。但实际蛋白表达水平由mRNA的二级结构、GC含量、稀有密码子簇的位置以及翻译起始与延伸动力学共同决定。若仅依据CAI这类频率指标进行替换，可能耗竭tRNA资源、诱发核糖体停顿，也可能引入不利的二级结构，甚至破坏关键的翻译后修饰位点。因此，CDS优化本质上是一个在巨大离散空间中进行多目标优化的问题。

CDS优化模型可概括为三类（图3A）：机器学习评分模型用于预测表达、稳定性或对候选序列排序；优化模型将CAI、MFE和GC含量等指标写入目标函数，在同义CDS空间中搜索折中方案；预训练表征模型（如CodonBERT）通过自监督学习上下文相关的密码子嵌入，支持表达、降解速率或稳定性的预测。这三类方法分别提供评分、搜索与表征能力，实际应用中常需组合使用。

图3. CDS优化算法及LinearDesign工作流程。 （A）给定蛋白或氨基酸序列后，同义CDS空间可通过机器学习评分、优化模型与预训练表征模型等策略探索。（B）LinearDesign通过DFA、SCFG、动态规划与束搜索，在MFE与CAI之间建立可调权衡。（C）不同权重参数可描绘CAI-MFE优化前沿，用于选择表达与稳定性更平衡的设计。

LinearDesign（图3B）是CDS优化的代表性算法。它不是深度生成模型，而是一个基于形式语法与动态规划的计算优化方法：DFA紧凑表示给定蛋白序列的同义密码子空间，SCFG描述RNA折叠的能量模型，再通过格解析、动态规划与束搜索寻找候选序列。其目标函数用MFE衡量结构稳定性，用CAI描述密码子适应性，并通过参数λ调节两者权重。

如图3C所示，改变λ即可描绘出CAI-MFE的优化前沿，让研究者能够从“结构更稳定”到“密码子更适应宿主”的连续谱中选择候选序列，而非单纯依赖单一指标。已有验证结果表明，优化后的序列可延长体外半衰期、提高细胞蛋白表达，并增强疫苗相关抗体应答。这些结果清楚说明，CDS优化需在同一设计空间中协调结构稳定性、翻译效率与免疫效果，而不能只追求单一指标最大化。

与LinearDesign不同，CodonBERT代表预训练表征路线。它以密码子（而非单个核苷酸）作为基本token，在大规模多物种CDS上进行自监督训练，学习密码子上下文、物种偏好与序列功能之间的潜在关系。这类模型不直接给出唯一最优CDS，而是为表达预测、降解速率预测、候选序列打分以及后续生成模型提供更丰富的表示。因此，本文将CDS设计总结为两条互补路线：一类如LinearDesign，明确构造可解释目标函数并搜索优化前沿；另一类如CodonBERT，学习高维序列表征以支持预测与迁移。未来真正实用的CDS优化，通常需要将两者结合，并同时纳入免疫原性、制造性、LNP递送兼容性与跨物种泛化等更多约束条件。

协同设计

传统mRNA优化常将CDS与UTR视为独立单元，例如仅优化CDS的CAI，或只改造5′UTR以增强翻译起始效率（图4A）。但这种局部优化可能忽视UTR与CDS之间的结构与功能耦合，难以在多个目标之间达到全局平衡。因此，5′UTR与CDS的联合设计成为下一代方法的重要方向。近期模型已开始将UTR-CDS相互作用纳入TE或EL预测，并探索协同优化、模块化生成与下游筛选等策略。

图4. 多区域mRNA协同设计策略。 （A）从5′UTR、CDS和3′UTR等局部优化走向多区域协同设计。（B）LinearDesign2展示5′UTR-CDS交替优化思路，综合TIE、CAI和MFE等目标。（C）GEMORNA代表模块化全长候选序列生成与筛选框架，体现协同多区域设计，而非完全端到端统一全长模型。

LinearDesign2（图4B）是在LinearDesign基础上的5′UTR-CDS交替优化扩展，并非端到端全长生成模型。它加入基于高通量数据训练的TIE预测器，将TIE、CAI与5′UTR-CDS转录本的MFE纳入复合目标，在迭代搜索中寻找折中方案。该方法展示了联合优化的价值，但目前尚未显式建模3′UTR的调控贡献，且局部邻域搜索对极大设计空间的覆盖能力有限。

另一个代表性模型GEMORNA采用模块化生成与筛选框架（图4C）。其CDS模块使用Transformer编码器-解码器，根据目标蛋白生成同义CDS；UTR模块采用解码器架构，分别对5′UTR和3′UTR进行预训练，并在高MRL或高稳定性文库上微调。推理时，模型先生成多个CDS候选，再为它们搭配不同长度的5′UTR和3′UTR，连接成全长序列后通过少量体外与体内实验筛选。本文强调，GEMORNA应理解为“模块化生成+整合筛选”，而非端到端全长全局模型；当目标与约束增多时，组合空间仍可能带来较重实验负担。

mRNABERT则将CodonBERT的表征思想扩展至全长mRNA转录本。它在大约1800万条非冗余全长mRNA序列上进行预训练，显式区分5′UTR、CDS与3′UTR，并采用“UTR使用核苷酸级token、CDS使用密码子级token”的双重token化方案。结合长序列建模与蛋白语言模型的对比学习，mRNABERT在TE预测、表达与稳定性预测、RBP结合位点识别等任务中表现突出，有潜力成为协同设计的全长评分骨干模型。不过，它目前主要用于表征与判别，还不是一个实验整合型的生成设计框架。

从药物开发角度看，协同优化仍处于早期阶段。大多数方法的目标集合相对狭窄，对免疫原性、组织/细胞类型特异性、体内药代动力学及可制造性等属性的建模远未充分；跨物种与跨实验语境的泛化能力有限；模型生成或优化的序列往往难以对应明确的调控元件或结构-功能机制。未来框架需将多维药理学与工程约束纳入统一目标，提升跨体系泛化能力，并引入更透明的结构分析与归因解释。

展望与结论

随着AI与RNA生物学的深度融合，mRNA药物设计正从传统经验性试错转向数据驱动的理性设计。设计对象也从UTR局部筛选或孤立CDS密码子适配，拓展至考虑全长转录本长程相互作用与协同优化的模型，使研究者能够在TE、稳定性与免疫原性等多目标空间中更精准地工程化mRNA分子。

在方法上，AI辅助mRNA设计主要沿表征学习与生成式设计两条路线发展。前者通过自监督预训练或多任务学习建立序列到功能的映射，支持TE与降解动力学等表型预测；后者则利用扩散模型、变分自编码器、强化学习或其他搜索策略，在庞大序列空间中寻找满足约束的候选序列。越来越多的框架开始将高精度表征模型作为评分函数或约束模块，引导生成模型，形成闭环优化流程。

文章亦指出，现有模型在复杂体内环境中仍存在诸多“水土不服”：合成MPRA数据与内源转录本、组织环境和病理状态之间存在分布偏移；生成或优化的序列难以解释具体调控机制；同时，LNP递送过程会受到序列长度、GC含量、结构紧密度与电荷分布等因素影响，而当前模型大多将递送体系视为外部变量。

面向未来，本文提出四个方向：建立分层、标准化、开放的数据基准；发展能够整合序列、结构、化学修饰与多组学表型的多模态基础模型；将目标函数扩展至低免疫原性、组织特异性、药代药效、可制造性与LNP相容性等全生命周期属性；建立主动学习与“设计-构建-测试-学习”闭环，用实验反馈持续校正模型偏差。

总体而言，AI辅助mRNA设计已展现出加速治疗药物开发的巨大潜力。但从学术模型走向临床应用，仍需解决数据标准化、模型泛化、多目标权衡与可解释性等一系列问题。本文为理解该领域的技术格局、关键瓶颈与未来方向，提供了一个系统性框架。

中国科学院上海药物研究所博士研究生石宇琪、硕士研究生曾传龙为本文共同第一作者；中国科学院上海药物研究所李叙潼副研究员、郑明月研究员为论文共同通讯作者。研究得到上海市科学技术委员会、国家自然科学基金、中国科学院上海药物研究所、中国科学院战略性先导科技专项、上海药物研究所-上海中医药大学中医药创新联合研究项目、上海市科技重大专项和国家重点研发计划等项目资助。

原文链接

Yuqi Shi, Chuanlong Zeng, Xia Sheng, et al. Transforming mRNA drug design with AI: From UTR and codon optimization to coordinated design. Journal of Advanced Research, 2026, Doi: 10.1016/j.jare.2026.06.013.

mRNA药物设计新突破：AI协同优化UTR与CDS

引言

数据

评价指标

UTR设计

CDS优化

协同设计

展望与结论

相关阅读

最新教程

最新资讯