AI精准筛选神经系统新药:上海药物所研发药物发现“过滤器”深度解析
2026年1月,一项发表于预印本平台arXiv(论文编号:arXiv:2601.19149v1)的研究,展示了由上海药物研究所、卡内基梅隆大学及湖南大学等机构联合开发的AI药物发现系统“GPCR-Filter”。该系统旨在高效识别靶向G蛋白偶联受体(GPCR)的神经系统疾病治疗新分子。
G蛋白偶联受体(GPCR)是位于细胞膜上的关键信号转导蛋白,调控着神经传递、激素反应与免疫调节等核心生理过程。作为最重要的药物靶点家族,目前约36%的FDA批准药物通过作用于GPCR发挥疗效。然而,从海量化合物中精准识别出既能结合又能功能性激活特定GPCR的分子,一直是药物化学领域的核心挑战。
传统高通量筛选方法周期长、成本高,且存在根本性局限:一个化合物与靶点结合,并不等同于它能产生预期的治疗性激活效应。大量“结合而不激活”的无效分子消耗了巨大的研发资源。
GPCR-Filter的设计目标,正是解决这一“活性筛选”难题。它本质上是一个智能化的虚拟筛选过滤器,能够从庞大的化合物库中,优先挑选出最可能功能性激活目标GPCR的候选分子。其核心突破在于,系统不仅能评估结合可能性,更能预测具有治疗意义的生物活性。
研究团队构建了一个包含超过9万个已验证GPCR-配体相互作用数据的数据集。在此基础上,他们创新性地融合了两种AI架构:擅长解析蛋白质序列语义的ESM-3蛋白质语言模型,与擅长表征分子空间拓扑结构的图神经网络。通过注意力机制实现两者的深度协同,系统得以共同解码受体与药物间复杂的相互作用模式。
一、突破传统局限的智能药物筛选系统
GPCR-Filter的工作原理实现了方法学简化。它并行处理两类输入信息:目标GPCR的氨基酸序列(文本信息),以及候选药物的SMILES字符串(化学结构信息)。关键在于,该系统无需依赖GPCR难以获取的三维晶体结构,仅凭序列信息即可进行高精度预测。
这带来了显著的实用优势。传统基于结构的药物设计受限于蛋白质结构解析的高成本与不确定性。GPCR-Filter绕过了这一瓶颈,如同通过设计蓝图评估建筑性能,大幅降低了早期药物发现的技术门槛与周期。
其技术流程如下:ESM-3模型将蛋白质序列编码为特征向量,图神经网络同步对分子结构进行编码。随后,系统的注意力机制模块对这两组编码进行交叉比对与关联分析,最终输出一个介于0到1之间的预测分数,量化该药物激活目标受体的潜力。
在模型训练中,团队还解决了生物数据中常见的正负样本不平衡问题。通过巧妙的负采样策略,算法能够从数据中学习区分有效与无效相互作用的深层规律,而非仅仅记忆已知的成功案例。
二、三重考验下的卓越表现
为全面评估GPCR-Filter的鲁棒性与泛化能力,研究团队设计了由易到难的三层测试框架,模拟了从已知靶点优化到全新靶点探索的不同研发场景。
第一关:随机分割测试。 在此基础性能测试中,GPCR-Filter展现了近乎完美的判别能力,准确率接近99%,显著优于基线模型。
第二关:受体内分割测试。 此测试模拟为已知靶点寻找全新化学骨架的药物。模型仅基于目标受体与部分化合物的已知互作数据,预测其与全新分子的相互作用。GPCR-Filter保持了超过97%的高准确率,而对比模型性能则出现明显下降。
第三关:跨受体分割测试。 这是最具挑战性的泛化能力测试。模型需要为训练数据中完全未出现过的全新GPCR受体预测有效药物。在此设定下,GPCR-Filter仍取得了73%的预测准确率,远超其他接近随机猜测水平的对比模型。这证明了其学习到的是普适性的作用规律,而非对特定数据的过拟合。
三、透明化的AI决策过程
GPCR-Filter并非不可解释的“黑箱”。研究团队通过可视化技术揭示了其决策依据,这对于需要严格验证的药物研发流程至关重要。
宏观层面,化学空间分析显示,具有相似配体结合偏好的GPCRs会自然形成聚类。这为模型强大的跨受体预测能力提供了化学逻辑基础。
微观层面,通过分析注意力权重,研究人员将模型的“关注焦点”与实验解析的GPCR-药物复合物三维结构进行比对。以多巴胺D2受体为例,模型预测的高权重区域与实验确定的药物结合口袋高度重合。对于口袋内的关键氨基酸残基,模型的识别准确率超过70%。这表明GPCR-Filter确实捕捉到了决定结合与激活的关键结构特征。
四、从计算机到实验室的成功验证
研究团队选择神经精神疾病重要靶点5-HT1A受体(与抑郁、焦虑治疗相关)进行了湿实验验证。
流程上,首先使用传统分子对接方法从164万化合物库中初筛出8705个候选分子。随后,GPCR-Filter作为二级精细过滤器,从中遴选出97个高潜力化合物。最终,团队成功合成了其中52个进行体外活性测试。
采用高灵敏度cAMP检测系统的实验结果显示,52个化合物中有4个(D24, D29, D34, D47)表现出明确的5-HT1A受体激活活性,虚拟筛选命中率约7.7%。相较于传统随机筛选通常低于1%的命中率,这是一个数量级的效率提升。
值得注意的是,这4个活性化合物拥有多样化的化学骨架,表明AI发现的是结构新颖的先导化合物,而非类似物。初步的剂量效应实验证实了它们对5-HT1A受体的特异性激活作用,其效力(微摩尔级EC50值)为后续的化学优化提供了明确的起点。
五、开启药物发现新纪元的技术突破
GPCR-Filter的成功验证了仅凭蛋白质序列信息进行高效药物发现的可行性。其预测精度达到了甚至超越了部分依赖三维结构的方法,这为大量结构未知的“不可成药”靶点打开了研发窗口。
该方法带来了多重变革性优势:效率飞跃——将数年筛选周期压缩至小时级计算;成本优化——极大降低早期发现的实验消耗;范围拓展——使更多难以解析结构的GPCR成为可探索的靶点。
其强大的泛化能力,为系统性探索“老药新用”(药物重定位)提供了强大工具。研究揭示的GPCR化学偏好网络,也为未来基于规则的理性药物设计提供了新洞察。
从技术范式看,GPCR-Filter成功整合了蛋白质语言模型、图神经网络与注意力机制,为复杂生物医学问题的多模态AI解决方案树立了典范。
六、未来展望与潜在影响
GPCR-Filter标志着AI驱动药物发现进入新阶段,其发展路径清晰:集成更丰富的实验数据(尤其阴性数据)、探索序列与结构信息融合的混合模型、将框架扩展至离子通道、激酶等其他靶点家族。
其应用前景广泛:
- 攻克罕见病:高效低成本特性使得针对患者基数小的GPCR相关罕见病药物研发变得经济可行。
- 推动精准医疗:可评估个体基因变异导致的受体差异,助力个性化用药方案预测。
- 加速药物重定位:快速筛选已上市药物与新型靶点的相互作用,为应对突发公共卫生事件提供策略储备。
当然,挑战并存,如更精确的负样本定义、多源异构数据整合等。但毋庸置疑,GPCR-Filter通过将数年筛选转化为小时计算,从根本上重塑了早期药物发现的效率曲线。从AI预测到成功上市的药物仍需漫长旅程,但该系统无疑为这条道路提供了更强大的探照灯。
对技术细节感兴趣的读者,可通过论文编号arXiv:2601.19149v1查阅完整的报告。
Q&A
Q1:GPCR-Filter是什么,它是如何工作的?
A:GPCR-Filter是一个AI驱动的虚拟筛选平台,专为发现靶向G蛋白偶联受体(GPCR)的新型活性化合物而设计。它通过融合蛋白质语言模型与图神经网络,同时分析受体氨基酸序列和药物分子结构,预测两者功能性相互作用的概率,并输出量化评分。
Q2:GPCR-Filter相比传统药物筛选方法有什么优势?
A:其核心优势在于速度、成本与范围。它无需依赖耗时昂贵的蛋白质结构解析,仅凭序列信息即可在数小时内完成百万级库的筛选,并将初期活性化合物命中率提升至约7.7%,远高于传统方法的随机筛选水平,显著降低了早期研发的资源门槛。
Q3:GPCR-Filter发现的新药物安全性如何保证?
A:GPCR-Filter聚焦于临床前研究的最早期阶段——活性“苗头”化合物的发现。其筛选出的高潜力分子,必须遵循标准的药物开发流程,经过严格的临床前药效学、药代动力学和毒理学评估,以及后续的多期临床试验,才能最终验证其安全性与有效性。AI的作用是大幅提高后续研发管线的起点质量与成功率。
