开源AI蛋白质模型榜单:扎克伯格新模型88%命中率
扎克伯格重金押注的AI蛋白质团队,又放出了一颗重磅冲击波。
最近,非营利学术机构Biohub正式发布了全球首个开源蛋白质世界模型。这套系统可不是单个模型那么简单,它集蛋白质结构预测、功能设计和生物发现引擎于一身,终极目标很明确:帮研究人员更快、更准地设计出全新的蛋白质结合剂。
这个系统的核心,是ESM Atlas——全球最大的蛋白质结构与功能图谱,覆盖了68亿个蛋白质和11亿个预测结构。这套模型还内置了最新的蛋白质折叠模型ESMFold2,在实测中直接正面击败了AlphaFold3。
具体是怎么个强法?论文里用数据说话:研究人员拿它对癌症和免疫学中五个关键靶点(EGFR、PDGFRβ、PD-L1、CTLA-4和CD45)进行了测试,蛋白命中率达到了36%到88%,抗体模式则在15%到29%之间。更厚道的是,这套模型坚持完全开源,目前已经通过Biohub平台免费向全球科学界开放。
全球最大蛋白质图谱,正面硬刚AlphaFold3
别看Biohub成立时间不长,背后的研究团队在AI蛋白质领域绝对是先驱级别的。早在2022年,当时还叫Meta-FAIR的蛋白质小组就推出了轰动一时的ESMFold,150亿参数的规模,速度比AlphaFold2快出一个数量级。
现在的目标显然已经不只是升级ESMFold这么简单了。团队直接搭建了一个完整的模型和资源生态系统——也就是这个世界模型。系统里包含了最先进的蛋白质折叠模型、通过探索模型潜在空间来设计蛋白质相互作用的设计方案、用于解读未知蛋白功能的可解释性工具,以及刚才提到的那个全球最大的蛋白质结构与功能图谱。
Biohub副总裁Sal Candido在采访中说得挺直白:这是一张前所未有的蛋白质生物学地图。
为了说清楚这个世界模型,团队发布了一份长达106页的论文预印本,核心部件主要围绕ESMC、ESMFold2和ESM Atlas这三大块。
蛋白质语言模型ESMC是整套系统的基础,提供了3亿、6亿和60亿三个参数规模。和前一代ESMC2相比,它纳入了宏基因组数据,训练数据集的规模直接从约5000万序列扩展到了约28亿序列,量级上的提升是跨越性的。
ESMFold2则直接瞄准了蛋白质结构预测的巅峰位置。实测中,它的速度明显快于其他折叠模型,同时准确性稳稳地保持在业界顶尖水平。
至于ESM Atlas,全球最大的蛋白质结构与功能图谱,68亿个蛋白质、11亿个预测结构,直接让系统具备了在生命尺度上做蛋白质分析和发现的能力。总的来看,ESM世界模型在数据量上比AlphaFold数据库多了8亿条目,在蛋白质复合物预测上略胜AlphaFold3,抗体-抗原结合这块也不例外。
砸下5亿美元,启动生物版「登月计划」
Biohub是非营利机构,背后站着的是Meta CEO扎克伯格和妻子普莉希拉·陈成立的“陈-扎克伯格倡议”(CZI)。他们的目标不小:在本世纪结束之前,治愈人类所有疾病。
图:扎克伯格和妻子普莉希拉·陈
今年四月,这个组织又宣布了一项为期5年、总投入5亿美元的里程碑计划——联合全球顶尖机构,一起打造构建生命预测模型所需的技术和多模态数据集。
在推出蛋白质世界模型之前,Biohub最出圈的成果主要集中在虚拟细胞领域。他们联合了10x Genomics、Ultima Genomics等公司,启动了“十亿细胞项目”。
图:rib细胞推理模型
还拿出了全球首个能推理细胞生物学的人工智能模型rBio虚拟细胞推理模型。这类模型的价值在于,有望大量减少成本高昂的生物实验,从而极大加速生物医学研究和药物发现的进程。





