统一科学大模型 LOGOS 开源测评与推荐
通义实验室 · 2026-06-18 10:32 浙江
一套“科学语法”正在消解科学语言与自然语言之间的壁垒
AI for Science一直未能解决一个根本性难题:蛋白质、小分子、材料、化学反应——这些性质迥异的科学实体,能否被同一个模型像处理人类语言那样统一建模与生成?
当前主流路径是为每个具体任务单独训练一个专家模型。结构预测、分子生成、逆合成规划各走各路,跨领域的知识几乎无法复用,更谈不上迁移。
更深层的阻碍在于:这些模型大多构建在独立于大语言模型的技术栈上——依赖稀缺的3D坐标数据与专用的几何网络,与LLM生态中成熟的工程基建完全割裂。
然而LLM已经在自然语言领域证明“单一模型覆盖万千任务”的可能性。AI for Science能否复制这条路径?
LOGOS(Language Of Generative Objects in Science)给出了清晰答案:设计一套“科学语法”,让跨领域的科学数据原生地运行在大语言模型的框架之内。
LOGOS是什么?
它是由ATH-Token Foundry联合中国人民大学高瓴人工智能学院开源的,基于统一“科学语法”的多领域科学生成基础模型。
核心洞察在于:蛋白质、小分子、材料虽然表面千差万别,底层却遵循相似的组成规则、结构约束和相互作用语义。它们本质上是同一种“科学语言”的不同方言。统一语法的价值随之显现——跨领域知识迁移、多任务协同优化、预训练与下游目标对齐,都因共享的语言基础而成为现实。
性能总览:六个任务一张图看懂
在深入技术细节之前,先看LOGOS的“实战成绩单”。在六大代表性科学任务上,LOGOS以纯序列建模范式,一致性地匹配或超越了领域专用方法。
尤其值得关注的是其参数效率。LOGOS-1B仅用1/56的参数量(1B vs 8×7B),就在多个任务上超越NatureLM,展现出极高的参数效率。
实验亮点:几大任务逐一解读
任务1:口袋条件配体生成 —— 纯序列首次击败3D扩散模型
这是AI制药最核心的应用场景:给定一个蛋白质口袋,生成能精准结合的小分子药物。
在纯序列范式下,它的表现超过了依赖3D坐标的扩散模型。这说明将空间结构转化为序列的方案确实有效。生成的分子同时满足了结合亲和力、药物相似性和合成可行性三重要求,具备实际药物设计的潜力。
任务2:逆合成预测 —— 直接辅助化学合成路线规划
给定一个目标分子,预测出合成它所需的前体分子。这是化学家设计合成路径时的核心工具。
LOGOS的Top-1准确率达到74.8%,全面超越所有基线方法。这意味着化学家可以直接用LOGOS来辅助设计合成路线,减少大量试错成本。
任务3:口袋位点识别 —— 仅靠序列预测蛋白质结合位点
预测蛋白质表面哪里能结合小分子,是药物发现的起点。传统方法必须依赖3D结构数据,但大量蛋白质根本没有可用的3D结构。
LOGOS仅用氨基酸序列,就在HOLO4K数据集上达到58.5%的Top-n准确率,超越所有传统3D方法(除P2Rank外)。这一结果将口袋识别从“依赖3D结构”扩展至“仅需序列信息”的新范式。
任务4:MOF材料生成 —— 探索未知化学空间
生成新型金属有机框架材料,这类材料在气体存储、分离、催化等领域有重要应用。
LOGOS生成的NBB(新型构建单元比例)从MOFFlow-2的10.10%提升至17.78%,提升幅度达76%。模型具备超越训练数据已有组分、生成全新分子构件的能力。AI对科学的推动,不应止步于再现已知,更应面向未知空间的生成与创造。
另外两个任务:蛋白质编辑(Hard难度Fitness达0.93,相比基线0.34提升174%)和抗体CDR设计(AAR达79.82%,超越结构依赖的逆折叠方法RADAb)同样优于现有最强基线,进一步验证了LOGOS在更广泛场景下的泛化能力。
核心突破在哪:三个关键设计
LOGOS严格按照科学界的“知识体系”来挑选模态。
核心主干
蛋白质是生命活动的核心执行者,小分子是调控蛋白质功能、干预生命过程最重要的化学手段。它们是科学界的两大核心。
家族扩展
抗体是具有高度序列多样性与特异性识别能力的特殊蛋白质,是生物大分子家族中不可忽视的成员;化学反应与功能材料则从转化过程与物质组成的角度,进一步拓展了小分子化学空间的知识覆盖。
界面互作
蛋白质与小分子并非孤立存在,二者之间的界面互作——尤其是蛋白质结合口袋对小分子配体的选择性识别——构成了连接生物大分子与化学实体的关键纽带,也是理解分子识别机制与药物作用机制的基础。
基于这套逻辑,LOGOS构建了涵盖7类模态、总计44.87B tokens的庞大预训练语料库:
- 生物大分子层蛋白质(28.9B tokens)+ 抗体(3.0B tokens)
- 化学实体与转化层小分子(2.1B tokens)+ 化学反应与MOF材料(0.47B tokens)
- 界面互作层蛋白质口袋(5.8B tokens)+ 蛋白口袋-配体复合物(4.6B tokens)
这就确保了这本“字典”不仅词汇量大,而且符合真实的科学规律。
创新点一:统一"科学语法" + 空间交互的离散化
这是LOGOS最具突破性的设计,由两个相辅相成的部分构成。
技术A:统一词汇表,万物皆可Token
LOGOS设计了一套共享词表,把蛋白质、小分子、材料等原本“鸡同鸭讲”的异构对象,全部编码成统一的离散Token序列。这让它们得以在同一个生成空间中被大模型“自回归”地理解和生成。
技术B:无需3D坐标,用序列读懂空间
传统AI要看懂蛋白质和小分子怎么结合,必须依赖显式3D坐标和复杂的几何神经网络。LOGOS则发明了一种“文字描述法”:它把3D空间接触模式直接“语法化”为离散Token。
具体来说,它把蛋白质口袋的三维关系写成了三种递进的“文字序列”:
- 残基-口袋标注序列:先标出氨基酸级别的基本信息;
- 残基-口袋-小分子展开序列:加入表面接触信息,让结构更立体;
- 残基-口袋转换序列:通过一个特殊的标记,把氨基酸和分子结构在序列里强行“对齐”。
结果就是:LOGOS完全不需要输入3D坐标,仅靠“读文字”(序列预测),就能在脑海里构建出复杂的3D空间互作规律。
创新点二:预训练和下游任务,形式和目标完全一致
传统范式下,换一个研究环节(比如从结构预测换到分子生成),往往就得换一套新模型和新假设。同时,预训练目标与下游任务之间存在显著的“目标偏差”,这种“学用脱节”导致模型落地时需要大量微调。
LOGOS的科学语法设计彻底解决了这个问题:
- 形式一致:预训练数据的序列形式等于下游任务的输入输出形式;
- 目标一致:预训练的next-token prediction(预测下一个词)等于下游的条件生成目标。
这种form-objective alignment有效消除了预训练与下游应用之间的gap,无需复杂的适配层或大量微调即可激活生成能力。
创新点三:跨领域知识正向迁移,实验证实有效
统一语法不仅让科学对象们“语言相通”,更让它们在底层“知识共享”。为了验证LOGOS是否真的学会了跨领域的知识,团队进行了深入的探究。
验证“跨语言翻译”能力
模型看到蛋白质的“方言”(氨基酸口袋序列),能直接“翻译”出小分子的“方言”(SMILES结构)。这证明它真的学会了两者之间的对应关系。
验证统一语法组分的必要性
团队做了一个“拆解实验”:如果去除口袋与复合物数据,模型性能接近随机(Vina -3.57);加入全部语法组分后性能大幅跃升(Vina -7.64)。每个设计环节的价值一目了然。
验证“1+1>2”的协同效应
让模型同时学四个任务,效果反而比各自独立训练更好,证明了跨领域的正向知识迁移确实存在。
LOGOS的实践证明了:AI for Science的发展不在于重新构建与LLM割裂的独立技术栈。而在于让科学基础模型与大语言模型深度对齐——共享架构、共享训练范式、共享推理基础设施——从而使基础模型真正成为AI4S的新入口。
通过继承LLM的预训练权重,科学模型能够直接复用vLLM推理加速、模型量化等成熟的工程基建,大幅降低训练与部署成本。同时,统一的语法空间打破了学科壁垒,使得生物、化学、材料等不同领域的数据能够在同一个模型框架内回流训练,形成跨领域的知识闭环。
从“筛选已知”到“设计未知”,LOGOS正在推动自然科学研究向“设计驱动”与“发现驱动”转变。未来,团队将进一步把这套“科学语法”扩展至基因组等更多领域,并探索科学语言与自然语言的深度融合,致力于构建一个真正通用的科学基础模型。
现在,欢迎体验与使用LOGOS。我们完整开源了模型权重、推理代码与技术报告:
HuggingFace:https://huggingface.co/LOGOS-Hub
GitHub:https://github.com/LOGOS-Hub/LOGOS
技术报告:https://arxiv.org/abs/2606.16905






