OpenBind AI药物发现模型解析:英国如何领跑AI制药新赛道
在AI药物发现领域,一项关键进展正在重塑研发格局。由英国主导的研究联盟OpenBind近日发布了其首个实验数据集与预测AI模型,标志着其构建全球最大药物-蛋白质相互作用数据库的宏大计划进入了实质性阶段。
OpenBind联盟成立于去年,其核心目标是构建一个前所未有的、规模远超现有项目的数据资源。该数据库的预期数据量将达到近几十年同类项目的20倍,旨在为训练下一代AI药物发现模型提供高质量、标准化的“燃料”,从而加速潜在候选药物的识别与优化。
此次发布的首批成果,精准聚焦于公共卫生领域的一个具体靶点:EV-A71肠道病毒。该病毒是引发儿童手足口病的主要病原体之一。研究团队公开了699种化合物与该病毒蛋白结合的高分辨率X射线晶体结构图像,并对其中的601种化合物进行了精确的结合亲和力测定。这一数据集是目前针对单一蛋白质靶点最全面、信息维度最丰富的公开资源之一。
与数据配套发布的,是一款针对EV-A71病毒2A蛋白酶靶点开发的专用AI预测模型。这套“高质量数据+专用算法工具”的组合,为学术界验证与开发新的计算药物发现方法提供了一个可靠的基准平台。
“此次发布验证了我们规模化生成标准化、高质量实验数据的能力,这些数据是专为训练AI模型而设计的。”牛津大学结构生物信息学教授、OpenBind高级研究员夏洛特·迪恩(Charlotte Deane)表示,“随着数据集的持续扩展,它将为提升模型预测的准确性与泛化能力提供关键支撑。”
联盟的技术迭代速度正在加快。据悉,一个全新的通用预测模型——OpenBind v1——计划于本月底发布。
OpenBind拥有顶尖的学术与产业背景。它由牛津大学与英国国家同步辐射光源设施Diamond Light Source共同发起。联盟成员还包括哥伦比亚大学、纪念斯隆凯特琳癌症中心、开放分子软件基金会、华盛顿大学等机构的科学家,以及Isomorphic Labs等行业创新伙伴。
构建这一超大规模数据库的动因,直指当前AI制药的核心挑战。OpenBind指出,即便是AlphaFold或Boltz等前沿系统,其性能也受限于训练数据的广度与质量。现有模型在处理结构已知的靶点时表现出色,但在预测结构新颖或差异较大的靶点时则存在局限。数据边界,实质上定义了模型能力的上限。
这一战略愿景获得了英国政府的明确支持。OpenBind项目获得了英国科学、创新与技术部“主权AI基金”800万英镑的投资,体现了英国在战略性前沿科技领域保持竞争力的决心。
“高质量实验数据是开发更优AI模型的基石。”牛津大学统计学系副教授、OpenBind计算研究员弗格斯·伊姆里(Fergus Imrie)博士解释道,“而性能更强的AI又能反过来智能指导后续实验,形成加速发现的闭环。我们在早期阶段积累的流程优化经验,已显著提升了研究的速度、一致性与可重复性,这对项目的规模化扩展至关重要。”
Q&A
Q1:OpenBind是什么机构?主要做什么?
OpenBind是一个由牛津大学和Diamond Light Source联合创立的研究联盟。其主要目标是构建全球规模最大的药物与蛋白质相互作用数据库,并利用该数据库训练AI模型,以高效识别有潜力的新药候选分子。其数据规模预计将达到历史同类项目的20倍,并已获得英国政府主权AI基金800万英镑的支持。
Q2:OpenBind发布的首个AI模型主要针对哪种疾病?
首个发布的数据集和AI模型针对EV-A71肠道病毒,该病毒与儿童手足口病相关。数据集包含了699种化合物与病毒蛋白的X射线结构图像,以及对601种化合物的结合强度测量数据,是目前针对单一蛋白靶点最详尽的公开数据集之一。
Q3:OpenBind的数据对现有AI药物发现模型有什么意义?
现有顶尖AI药物发现模型(如AlphaFold)的能力受其训练数据质量和范围的限制,在面对结构新颖的靶点时预测性能会下降。OpenBind提供的大规模、高质量标准化实验数据,旨在突破这一数据瓶颈,提升AI模型对未知靶点的预测能力与泛化性,从而推动整个药物发现流程的进步。
