mRNA药物设计新突破:AI协同优化UTR与CDS
(来源:DrugAI)
mRNA疫苗与治疗药物正从概念验证向多疾病适应症拓展,一个紧迫的核心命题随之凸显:如何在mRNA序列中精确平衡翻译效率、稳定性、免疫原性与可制造性?这已成为下一代核酸药物设计的枢纽问题。与传统小分子或重组蛋白药物不同,mRNA药物的药效学与药代动力学特征高度依赖于其核苷酸序列本身。5′非翻译区(5′UTR)、编码序列(CDS)和3′UTR等关键结构元件,协同决定了蛋白表达水平及药物在体内的最终表现。
近日,中国科学院上海药物研究所李叙潼、郑明月团队在《Journal of Advanced Research》发表综述论文“Transforming mRNA drug design with AI: From UTR and codon optimization to coordinated design”。该文系统梳理了人工智能在UTR设计、CDS优化以及UTR-CDS协同设计中的最新进展,重点剖析了数据基础、评价指标与算法框架,并明确指出当前亟待攻克的核心瓶颈:数据标准化、模型泛化、多目标权衡以及模型可解释性。
引言
mRNA作为基因表达与蛋白质合成的信使,如今已跃升为疫苗、癌症免疫治疗及蛋白替代疗法的重要技术平台。SARS-CoV-2 mRNA疫苗的大规模临床验证,有力证明了mRNA药物能够在极短周期内完成设计开发,并在特定适应症中提供有效保护。更重要的是,mRNA药物无需进入细胞核、不会整合至基因组,其表达具有可逆性与可调控性,制造流程亦具备平台化优势。图1. AI在mRNA设计中的总体框架。 (A)mRNA结构元件及其优化范围:UTR设计、密码子设计和多区域协同设计分别作用于5′UTR、CDS和3′UTR等调控层级。(B)从传统规则驱动设计向AI驱动设计的转变:AI融合数据预测、生成建模与序列空间搜索,优先获得性质更优的mRNA候选序列。
如图1A所示,一个成熟的真核mRNA由5′端帽结构、5′UTR、编码序列(CDS)、3′UTR和Poly(A)尾等模块构成,通常还与假尿苷或N1-甲基假尿苷等核苷修饰协同发挥功能。5′端帽与Kozak序列影响核糖体起始识别;UTR与CDS的二级结构及局部密码子组成共同调控扫描、起始与延伸过程;3′UTR中的顺式调控元件则参与mRNA的定位、稳定性与降解调控。 从分子设计视角看,mRNA序列优化是一个在强生物学与生物物理约束下的高维组合优化问题。以SARS-CoV-2刺突蛋白为例,其同义编码空间理论上可达约10^632种序列。尽管这些序列编码相同的多肽,但在二级结构稳定性、翻译效率(TE)等关键性质上可能相差数个数量级。如图1B所示,传统策略多依赖启发式规则与低至中通量实验,仅能探索局部序列区域,且难以同时平衡TE、稳定性与免疫原性。此外,若将UTR与CDS解耦分别优化,则可能忽视全长分子内部的长程调控作用,削弱模型在复杂生物体系中的泛化能力。 人工智能(AI)的引入,为突破上述组合设计瓶颈提供了全新范式。深度学习表征模型能够从大规模异质数据中学习序列、结构与功能之间的非线性关系,用于预测TE、mRNA稳定性、蛋白表达水平及先天免疫激活等关键性质。在此基础上,生成模型与优化模型可将这些预测器作为评分函数,在同义编码序列变体与UTR构型构成的巨大联合空间中,进行目标导向的搜索,从而在多种药理学约束之间找到更优权衡。随着相关计算模型快速涌现,mRNA设计范式正从单一区域优化转向UTR与CDS的协同设计,包括交替优化、模块化生成、整合评分与全长表征学习等策略。因此,本文从UTR、CDS以及UTR-CDS协同设计三个层次,系统梳理AI驱动的mRNA序列工程方法,重点讨论表征模型与生成/优化模型两条方法学主线,并进一步分析数据碎片化、跨体系泛化不足、多目标药理学建模有限以及模型可解释性不足等挑战,展望标准化开放数据平台、多模态基础模型与闭环“设计-构建-测试-学习”框架的发展方向。数据
本文将AI辅助mRNA设计所依赖的数据概括为多层级体系。第一类数据来自公共数据库与大规模多组学项目,如Ensembl、RefSeq、GENCODE、UniProt、GTEx和Human Protein Atlas等。这些数据库提供CDS与UTR注释、蛋白目标集合、组织表达谱、RNA-seq和Ribo-seq等信息,可用于构建自监督预训练语料、估计密码子使用偏好、分析UTR基序分布,以及近似标注翻译效率与核糖体占据情况。 公共数据覆盖面广,但局限性明显:它们大多反映稳态测量结果,而非可控扰动下的因果效应。此外,表达水平还受启动子活性、剪接、核输出与降解等多种因素共同影响。单纯依赖公共数据,通常难以精确判断特定UTR片段或少量密码子替换对翻译效率与稳定性的具体影响。为获得更可控的监督信号,当前多数研究采用合成报告基因文库与大规模并行报告实验(MPRA),在统一的载体与启动子背景下系统改变5′UTR、3′UTR或CDS片段,并测定转录输出、核糖体负载、报告活性或蛋白表达。 第三类数据来自体外与体内功能验证,规模较小但更贴近药物开发真实场景。这类数据涵盖不同细胞系中的蛋白表达、抗原表达、mRNA稳定性、组织分布、免疫原性及抗体滴度等终点指标。本文强调,当前数据景观最突出的问题是高度定制化、原始数据共享不足,以及缺乏统一基准。不同研究的文库长度、随机化策略、修饰体系与细胞模型差异显著,导致性能指标往往仅能在原始数据集内部解释,难以进行严格横向比较。未来亟需构建覆盖多细胞类型、多时间尺度与多核苷修饰条件的开放数据集,并配套标准化评测流程。评价指标
mRNA在细胞内的生命周期涉及折叠、翻译起始、延伸与降解等多个耦合过程,因此没有任何单一指标能完整表征药物性质。本文将常用指标分为四类:序列统计与生物物理特征、热力学稳定性、动态翻译动力学,以及药效学与可开发性终点。这些指标既是AI模型的优化目标,也是模型比较与实验验证的基准。 在结构与序列层面,最小自由能(MFE)常用于描述RNA二级结构的稳定性。CDS优化还经常使用密码子适应指数(CAI)、最优密码子频率(Fop)和有效密码子数(ENC)等指标。但需注意,CAI和Fop依赖宿主背景、参考基因集与计算方法;ENC仅能反映密码子使用偏倚的强度,无法直接说明其是否有利于特定宿主的翻译过程。 在功能层面,平均核糖体负载(MRL)、翻译效率(TE)、mRNA半衰期、蛋白表达水平(EL)及免疫原性,更贴近药物开发实际需求。本文指出,临床级mRNA设计必须从单一的“表达最大化”转向多目标优化,在高表达、长半衰期、低免疫原性、组织特异性与制造可行性之间,寻找可解释、可验证的折中方案。UTR设计
UTR是mRNA药物序列中最直接调控翻译起始、稳定性与细胞类型响应的顺式作用元件。5′UTR影响核糖体识别、扫描与起始密码子选择;3′UTR则通过RNA结合蛋白和miRNA等机制调控mRNA定位、半衰期与降解过程。传统UTR设计大多直接借用高表达内源基因的UTR模板,或通过引入Kozak共识序列、删除上游开放阅读框与AU-rich元件等方式降低翻译抑制与降解风险。这些策略对早期开发确有帮助,但本质上是经验迁移,难以系统探索广阔UTR空间。在此背景下,基于AI的数据驱动方法为突破这些设计瓶颈提供了新机遇。对于mRNA治疗药物而言,AI模型既可作为预测器,估计候选UTR在指定细胞环境中的翻译水平与稳定性;也可作为设计器,从头生成满足预设药理属性的合成UTR,推动设计范式从“经验模仿天然UTR”向“精准的性质驱动设计”转变。 当前UTR设计正从单个预测器走向“预训练-微调-实验验证”的基础模型框架。预训练阶段(图2A)不仅可使用天然5′UTR序列,还可整合CDS、3′UTR、RNA-seq、Ribo-seq与MPRA文库等多来源数据。模型通过掩码核苷酸预测、二级结构与MFE预测等自监督任务,学习序列语法、结构约束与跨物种保守信息。这一步的意义在于,模型不再局限于记忆某个报告文库中的局部k-mer特征,而是形成对UTR调控语法的通用表征,为后续在少量高质量标注数据上进行任务微调奠定坚实基础。微调阶段(图2B),预训练模型可适配至平均核糖体负载(MRL)、翻译效率(TE)、mRNA稳定性、半衰期、免疫原性与组织特异性等下游任务。同时,预测任务与设计任务可整合在同一流程中:一方面,模型作为评分器对候选UTR预测表达、稳定性或免疫相关风险;另一方面,模型作为生成器或优化器直接输出5′UTR、3′UTR甚至全长mRNA候选序列。这些候选序列随后需经过体外筛选与体内测试,最终进入mRNA药物开发场景。图2. mRNA基础模型的预训练与微调框架。 (A)利用大规模序列数据库与多组学谱进行自监督预训练,通过掩码核苷酸预测、结构建模等任务学习可泛化表示。(B)预训练模型可在MRL、TE、稳定性、免疫原性、UTR设计和CDS优化等下游任务中微调,并与体外和体内验证衔接。
早期UTR建模以判别式预测为主。例如,Optimus 5-Prime利用CNN从MPRA文库学习5′UTR与MRL的关系,并可结合遗传算法进行逆向设计;Frame Pooling则加入阅读框信息以适应可变长UTR。随后,Random Forest、MTtrans、UTR-LM与UTR-Insight等方法分别引入手工特征、多任务学习、Transformer预训练与CNN-Transformer解码,推动模型从局部k-mer记忆走向更通用的调控表征。尤其是UTR-LM与UTR-Insight这类模型,更接近图2所示的框架:先从大规模序列中学习通用表示,再针对MRL、TE或表达水平进行微调与筛选。 生成式AI也开始直接参与UTR设计。UTRGAN、Smart5UTR、PARADE与MOBO-5UTR等方法,可在潜在空间中搜索高表达、低毒性、组织特异性或多目标平衡的UTR序列。其中,Smart5UTR面向m1Ψ修饰的mRNA疫苗,PARADE强调细胞类型选择性,而MOBO-5UTR则将TE、稳定性、碱基组成与结构风险均纳入同一优化框架。 总体来看,AI使UTR设计从有限的天然模板筛选,迈向可预测、可生成、可多目标优化的新阶段。未来关键挑战在于提升模型从合成文库到真实内源mRNA、从体外体系到体内药物场景的泛化能力,并通过实验验证建立更可靠的闭环设计平台。CDS优化
CDS优化是提升mRNA翻译效率、缓解蛋白表达瓶颈的核心策略,其做法是在冗余的遗传密码中优先选择有利的同义密码子。由于密码子使用具有简并性,即便是绿色荧光蛋白(GFP)这类相对较短的蛋白,其理论同义编码空间也是一个天文数字;而SARS-CoV-2刺突蛋白等大型病毒抗原,产生的组合序列空间则更为庞大。这些同义设计空间的规模之大,使穷举枚举与暴力搜索在计算上完全不可行。 高表达宿主通常具有密码子使用偏好,最优密码子往往与更丰富的tRNA池相关联。但实际蛋白表达水平由mRNA的二级结构、GC含量、稀有密码子簇的位置以及翻译起始与延伸动力学共同决定。若仅依据CAI这类频率指标进行替换,可能耗竭tRNA资源、诱发核糖体停顿,也可能引入不利的二级结构,甚至破坏关键的翻译后修饰位点。因此,CDS优化本质上是一个在巨大离散空间中进行多目标优化的问题。 CDS优化模型可概括为三类(图3A):机器学习评分模型用于预测表达、稳定性或对候选序列排序;优化模型将CAI、MFE和GC含量等指标写入目标函数,在同义CDS空间中搜索折中方案;预训练表征模型(如CodonBERT)通过自监督学习上下文相关的密码子嵌入,支持表达、降解速率或稳定性的预测。这三类方法分别提供评分、搜索与表征能力,实际应用中常需组合使用。图3. CDS优化算法及LinearDesign工作流程。 (A)给定蛋白或氨基酸序列后,同义CDS空间可通过机器学习评分、优化模型与预训练表征模型等策略探索。(B)LinearDesign通过DFA、SCFG、动态规划与束搜索,在MFE与CAI之间建立可调权衡。(C)不同权重参数可描绘CAI-MFE优化前沿,用于选择表达与稳定性更平衡的设计。
LinearDesign(图3B)是CDS优化的代表性算法。它不是深度生成模型,而是一个基于形式语法与动态规划的计算优化方法:DFA紧凑表示给定蛋白序列的同义密码子空间,SCFG描述RNA折叠的能量模型,再通过格解析、动态规划与束搜索寻找候选序列。其目标函数用MFE衡量结构稳定性,用CAI描述密码子适应性,并通过参数λ调节两者权重。 如图3C所示,改变λ即可描绘出CAI-MFE的优化前沿,让研究者能够从“结构更稳定”到“密码子更适应宿主”的连续谱中选择候选序列,而非单纯依赖单一指标。已有验证结果表明,优化后的序列可延长体外半衰期、提高细胞蛋白表达,并增强疫苗相关抗体应答。这些结果清楚说明,CDS优化需在同一设计空间中协调结构稳定性、翻译效率与免疫效果,而不能只追求单一指标最大化。 与LinearDesign不同,CodonBERT代表预训练表征路线。它以密码子(而非单个核苷酸)作为基本token,在大规模多物种CDS上进行自监督训练,学习密码子上下文、物种偏好与序列功能之间的潜在关系。这类模型不直接给出唯一最优CDS,而是为表达预测、降解速率预测、候选序列打分以及后续生成模型提供更丰富的表示。因此,本文将CDS设计总结为两条互补路线:一类如LinearDesign,明确构造可解释目标函数并搜索优化前沿;另一类如CodonBERT,学习高维序列表征以支持预测与迁移。未来真正实用的CDS优化,通常需要将两者结合,并同时纳入免疫原性、制造性、LNP递送兼容性与跨物种泛化等更多约束条件。协同设计
传统mRNA优化常将CDS与UTR视为独立单元,例如仅优化CDS的CAI,或只改造5′UTR以增强翻译起始效率(图4A)。但这种局部优化可能忽视UTR与CDS之间的结构与功能耦合,难以在多个目标之间达到全局平衡。因此,5′UTR与CDS的联合设计成为下一代方法的重要方向。近期模型已开始将UTR-CDS相互作用纳入TE或EL预测,并探索协同优化、模块化生成与下游筛选等策略。图4. 多区域mRNA协同设计策略。 (A)从5′UTR、CDS和3′UTR等局部优化走向多区域协同设计。(B)LinearDesign2展示5′UTR-CDS交替优化思路,综合TIE、CAI和MFE等目标。(C)GEMORNA代表模块化全长候选序列生成与筛选框架,体现协同多区域设计,而非完全端到端统一全长模型。
LinearDesign2(图4B)是在LinearDesign基础上的5′UTR-CDS交替优化扩展,并非端到端全长生成模型。它加入基于高通量数据训练的TIE预测器,将TIE、CAI与5′UTR-CDS转录本的MFE纳入复合目标,在迭代搜索中寻找折中方案。该方法展示了联合优化的价值,但目前尚未显式建模3′UTR的调控贡献,且局部邻域搜索对极大设计空间的覆盖能力有限。 另一个代表性模型GEMORNA采用模块化生成与筛选框架(图4C)。其CDS模块使用Transformer编码器-解码器,根据目标蛋白生成同义CDS;UTR模块采用解码器架构,分别对5′UTR和3′UTR进行预训练,并在高MRL或高稳定性文库上微调。推理时,模型先生成多个CDS候选,再为它们搭配不同长度的5′UTR和3′UTR,连接成全长序列后通过少量体外与体内实验筛选。本文强调,GEMORNA应理解为“模块化生成+整合筛选”,而非端到端全长全局模型;当目标与约束增多时,组合空间仍可能带来较重实验负担。 mRNABERT则将CodonBERT的表征思想扩展至全长mRNA转录本。它在大约1800万条非冗余全长mRNA序列上进行预训练,显式区分5′UTR、CDS与3′UTR,并采用“UTR使用核苷酸级token、CDS使用密码子级token”的双重token化方案。结合长序列建模与蛋白语言模型的对比学习,mRNABERT在TE预测、表达与稳定性预测、RBP结合位点识别等任务中表现突出,有潜力成为协同设计的全长评分骨干模型。不过,它目前主要用于表征与判别,还不是一个实验整合型的生成设计框架。 从药物开发角度看,协同优化仍处于早期阶段。大多数方法的目标集合相对狭窄,对免疫原性、组织/细胞类型特异性、体内药代动力学及可制造性等属性的建模远未充分;跨物种与跨实验语境的泛化能力有限;模型生成或优化的序列往往难以对应明确的调控元件或结构-功能机制。未来框架需将多维药理学与工程约束纳入统一目标,提升跨体系泛化能力,并引入更透明的结构分析与归因解释。展望与结论
随着AI与RNA生物学的深度融合,mRNA药物设计正从传统经验性试错转向数据驱动的理性设计。设计对象也从UTR局部筛选或孤立CDS密码子适配,拓展至考虑全长转录本长程相互作用与协同优化的模型,使研究者能够在TE、稳定性与免疫原性等多目标空间中更精准地工程化mRNA分子。 在方法上,AI辅助mRNA设计主要沿表征学习与生成式设计两条路线发展。前者通过自监督预训练或多任务学习建立序列到功能的映射,支持TE与降解动力学等表型预测;后者则利用扩散模型、变分自编码器、强化学习或其他搜索策略,在庞大序列空间中寻找满足约束的候选序列。越来越多的框架开始将高精度表征模型作为评分函数或约束模块,引导生成模型,形成闭环优化流程。 文章亦指出,现有模型在复杂体内环境中仍存在诸多“水土不服”:合成MPRA数据与内源转录本、组织环境和病理状态之间存在分布偏移;生成或优化的序列难以解释具体调控机制;同时,LNP递送过程会受到序列长度、GC含量、结构紧密度与电荷分布等因素影响,而当前模型大多将递送体系视为外部变量。 面向未来,本文提出四个方向:建立分层、标准化、开放的数据基准;发展能够整合序列、结构、化学修饰与多组学表型的多模态基础模型;将目标函数扩展至低免疫原性、组织特异性、药代药效、可制造性与LNP相容性等全生命周期属性;建立主动学习与“设计-构建-测试-学习”闭环,用实验反馈持续校正模型偏差。 总体而言,AI辅助mRNA设计已展现出加速治疗药物开发的巨大潜力。但从学术模型走向临床应用,仍需解决数据标准化、模型泛化、多目标权衡与可解释性等一系列问题。本文为理解该领域的技术格局、关键瓶颈与未来方向,提供了一个系统性框架。中国科学院上海药物研究所博士研究生石宇琪、硕士研究生曾传龙为本文共同第一作者;中国科学院上海药物研究所李叙潼副研究员、郑明月研究员为论文共同通讯作者。研究得到上海市科学技术委员会、国家自然科学基金、中国科学院上海药物研究所、中国科学院战略性先导科技专项、上海药物研究所-上海中医药大学中医药创新联合研究项目、上海市科技重大专项和国家重点研发计划等项目资助。
原文链接
Yuqi Shi, Chuanlong Zeng, Xia Sheng, et al. Transforming mRNA drug design with AI: From UTR and codon optimization to coordinated design. Journal of Advanced Research, 2026, Doi: 10.1016/j.jare.2026.06.013.




