开源AI蛋白质模型榜单：扎克伯格新模型88%命中率

2026-05-29阅读 0热度 0

世界模型

扎克伯格重金押注的AI蛋白质团队，又放出了一颗重磅冲击波。

最近，非营利学术机构Biohub正式发布了全球首个开源蛋白质世界模型。这套系统可不是单个模型那么简单，它集蛋白质结构预测、功能设计和生物发现引擎于一身，终极目标很明确：帮研究人员更快、更准地设计出全新的蛋白质结合剂。

这个系统的核心，是ESM Atlas——全球最大的蛋白质结构与功能图谱，覆盖了68亿个蛋白质和11亿个预测结构。这套模型还内置了最新的蛋白质折叠模型ESMFold2，在实测中直接正面击败了AlphaFold3。

具体是怎么个强法？论文里用数据说话：研究人员拿它对癌症和免疫学中五个关键靶点（EGFR、PDGFRβ、PD-L1、CTLA-4和CD45）进行了测试，蛋白命中率达到了36%到88%，抗体模式则在15%到29%之间。更厚道的是，这套模型坚持完全开源，目前已经通过Biohub平台免费向全球科学界开放。

别看Biohub成立时间不长，背后的研究团队在AI蛋白质领域绝对是先驱级别的。早在2022年，当时还叫Meta-FAIR的蛋白质小组就推出了轰动一时的ESMFold，150亿参数的规模，速度比AlphaFold2快出一个数量级。

现在的目标显然已经不只是升级ESMFold这么简单了。团队直接搭建了一个完整的模型和资源生态系统——也就是这个世界模型。系统里包含了最先进的蛋白质折叠模型、通过探索模型潜在空间来设计蛋白质相互作用的设计方案、用于解读未知蛋白功能的可解释性工具，以及刚才提到的那个全球最大的蛋白质结构与功能图谱。

Biohub副总裁Sal Candido在采访中说得挺直白：这是一张前所未有的蛋白质生物学地图。

为了说清楚这个世界模型，团队发布了一份长达106页的论文预印本，核心部件主要围绕ESMC、ESMFold2和ESM Atlas这三大块。

蛋白质语言模型ESMC是整套系统的基础，提供了3亿、6亿和60亿三个参数规模。和前一代ESMC2相比，它纳入了宏基因组数据，训练数据集的规模直接从约5000万序列扩展到了约28亿序列，量级上的提升是跨越性的。

ESMFold2则直接瞄准了蛋白质结构预测的巅峰位置。实测中，它的速度明显快于其他折叠模型，同时准确性稳稳地保持在业界顶尖水平。

至于ESM Atlas，全球最大的蛋白质结构与功能图谱，68亿个蛋白质、11亿个预测结构，直接让系统具备了在生命尺度上做蛋白质分析和发现的能力。总的来看，ESM世界模型在数据量上比AlphaFold数据库多了8亿条目，在蛋白质复合物预测上略胜AlphaFold3，抗体-抗原结合这块也不例外。

Biohub是非营利机构，背后站着的是Meta CEO扎克伯格和妻子普莉希拉·陈成立的“陈-扎克伯格倡议”（CZI）。他们的目标不小：在本世纪结束之前，治愈人类所有疾病。

图：扎克伯格和妻子普莉希拉·陈

今年四月，这个组织又宣布了一项为期5年、总投入5亿美元的里程碑计划——联合全球顶尖机构，一起打造构建生命预测模型所需的技术和多模态数据集。

在推出蛋白质世界模型之前，Biohub最出圈的成果主要集中在虚拟细胞领域。他们联合了10x Genomics、Ultima Genomics等公司，启动了“十亿细胞项目”。

图：rib细胞推理模型

还拿出了全球首个能推理细胞生物学的人工智能模型rBio虚拟细胞推理模型。这类模型的价值在于，有望大量减少成本高昂的生物实验，从而极大加速生物医学研究和药物发现的进程。

相关阅读