10亿蛋白质结构预测开源模型权威测评

2026-05-28阅读 0热度 0

人工智能

一款全新AI工具的问世，将已知蛋白质宇宙的边界大幅扩展——它一次性生成了超过10亿个预测蛋白质结构，并附带数十亿条蛋白质序列的详细图谱。

2024年5月27日，美国生物医学研究机构Biohub正式上线名为“ESM图谱”的数据库。该机构由社交平台“脸书”创始人马克·扎克伯格及其妻子——医生兼教育家普莉希拉·陈联合创立。

这个新图谱收录的预测蛋白质结构，比谷歌“深层思维”公司的AlphaFold数据库多出8亿多条，相较此前版本的ESM图谱也增加了约3亿条。关键亮点在于，其中绝大多数序列源于以往研究较少的元基因组数据。

“该图谱完整映射了蛋白质生物学的全貌，尤其聚焦于那些最鲜为人知的区域。”Biohub科学主管Alex Rives表示，“我们认为，它将成为新生物学发现的核心基础设施。”

这些预测由AI模型ESMFold2生成。据Biohub透露，ESMFold2在性能上已全面超越AlphaFold3（最新版本）以及其他蛋白质结构预测AI系统。

ESMFold2基于Rives团队2024年发布的“蛋白质语言”模型，该模型使用覆盖“生命之树”的数十亿蛋白质数据训练而成。训练数据中包含来自土壤、海洋及其他环境的“元基因组”序列——这些序列并未被AlphaFold数据库收录。

研究人员指出，在确定相互作用蛋白复合物（尤其是抗体与抗原靶点结合）的正确结构方面，ESMFold2的表现优于包括AlphaFold3在内的现有方法。

在一篇发布于预印本平台的论文中，研究团队描述了如何利用ESMFold2设计能与癌症及免疫疾病相关蛋白强力结合的新型抗体与其他蛋白质。实验室验证显示，很大比例的设计产物与预期结果高度一致。

Rives希望，这一免费开源的图谱能帮助科研人员架起蛋白质世界已知与未知区域之间的桥梁。

瑞典隆德大学计算生物学家Gemma Atkinson评价称，新图谱是“生物学领域一份非凡资源”。“看到大规模蛋白质语言模型如何精准捕捉蛋白质生物学的基本规律，令人振奋。”

英国伦敦大学学院计算生物学家Christine Orengo则认为，这些预测虽需先行验证，但有望揭示全新的蛋白质折叠方式与功能，这对蛋白质工程和基础生物学研究意义深远。

韩国首尔大学计算生物学家Martin Steinegger最关注ESMFold2在预测与已知结构差异较大的蛋白质结构时的表现。他的团队发现，ESMFold第一版在预测非常规蛋白质结构（尤其是元基因组数据中那些）时表现不佳。

美国麻省理工学院计算生物学家Sergey Ovchinnikov认为，“ESM图谱”是对广泛使用的含超2亿个蛋白质结构的AlphaFold数据库的补充，而非替代。

Ovchinnikov补充说，ESMFold2对蛋白质相互作用的预测令人印象深刻，但不算完全出乎意料。今年早些时候，“深层思维”公司旗下机构发布了一款专有模型，在该类结构预测上取得了显著进展。他表示，虽未直接与ESMFold2对比，但其他开源模型在预测蛋白质相互作用方面也取得了亮眼成果。

不过，Ovchinnikov认为，ESMFold2完全开源且不附加任何商业使用限制，意味着它将得到广泛采用。“我预计很多人会兴奋地尝试使用ESMFold2。”

相关阅读