统一科学大模型 LOGOS 开源测评与推荐

2026-06-19阅读 0热度 0

LOGOS

通义实验室 · 2026-06-18 10:32 浙江

一套“科学语法”正在消解科学语言与自然语言之间的壁垒

AI for Science一直未能解决一个根本性难题：蛋白质、小分子、材料、化学反应——这些性质迥异的科学实体，能否被同一个模型像处理人类语言那样统一建模与生成？

当前主流路径是为每个具体任务单独训练一个专家模型。结构预测、分子生成、逆合成规划各走各路，跨领域的知识几乎无法复用，更谈不上迁移。

更深层的阻碍在于：这些模型大多构建在独立于大语言模型的技术栈上——依赖稀缺的3D坐标数据与专用的几何网络，与LLM生态中成熟的工程基建完全割裂。

然而LLM已经在自然语言领域证明“单一模型覆盖万千任务”的可能性。AI for Science能否复制这条路径？

LOGOS（Language Of Generative Objects in Science）给出了清晰答案：设计一套“科学语法”，让跨领域的科学数据原生地运行在大语言模型的框架之内。

LOGOS是什么？

它是由ATH-Token Foundry联合中国人民大学高瓴人工智能学院开源的，基于统一“科学语法”的多领域科学生成基础模型。

核心洞察在于：蛋白质、小分子、材料虽然表面千差万别，底层却遵循相似的组成规则、结构约束和相互作用语义。它们本质上是同一种“科学语言”的不同方言。统一语法的价值随之显现——跨领域知识迁移、多任务协同优化、预训练与下游目标对齐，都因共享的语言基础而成为现实。

性能总览：六个任务一张图看懂

在深入技术细节之前，先看LOGOS的“实战成绩单”。在六大代表性科学任务上，LOGOS以纯序列建模范式，一致性地匹配或超越了领域专用方法。

尤其值得关注的是其参数效率。LOGOS-1B仅用1/56的参数量（1B vs 8×7B），就在多个任务上超越NatureLM，展现出极高的参数效率。

实验亮点：几大任务逐一解读

任务1：口袋条件配体生成 —— 纯序列首次击败3D扩散模型

这是AI制药最核心的应用场景：给定一个蛋白质口袋，生成能精准结合的小分子药物。

在纯序列范式下，它的表现超过了依赖3D坐标的扩散模型。这说明将空间结构转化为序列的方案确实有效。生成的分子同时满足了结合亲和力、药物相似性和合成可行性三重要求，具备实际药物设计的潜力。

任务2：逆合成预测 —— 直接辅助化学合成路线规划

给定一个目标分子，预测出合成它所需的前体分子。这是化学家设计合成路径时的核心工具。

LOGOS的Top-1准确率达到74.8%，全面超越所有基线方法。这意味着化学家可以直接用LOGOS来辅助设计合成路线，减少大量试错成本。

任务3：口袋位点识别 —— 仅靠序列预测蛋白质结合位点

预测蛋白质表面哪里能结合小分子，是药物发现的起点。传统方法必须依赖3D结构数据，但大量蛋白质根本没有可用的3D结构。

LOGOS仅用氨基酸序列，就在HOLO4K数据集上达到58.5%的Top-n准确率，超越所有传统3D方法（除P2Rank外）。这一结果将口袋识别从“依赖3D结构”扩展至“仅需序列信息”的新范式。

任务4：MOF材料生成 —— 探索未知化学空间

生成新型金属有机框架材料，这类材料在气体存储、分离、催化等领域有重要应用。

LOGOS生成的NBB（新型构建单元比例）从MOFFlow-2的10.10%提升至17.78%，提升幅度达76%。模型具备超越训练数据已有组分、生成全新分子构件的能力。AI对科学的推动，不应止步于再现已知，更应面向未知空间的生成与创造。

另外两个任务：蛋白质编辑（Hard难度Fitness达0.93，相比基线0.34提升174%）和抗体CDR设计（AAR达79.82%，超越结构依赖的逆折叠方法RADAb）同样优于现有最强基线，进一步验证了LOGOS在更广泛场景下的泛化能力。

核心突破在哪：三个关键设计

LOGOS严格按照科学界的“知识体系”来挑选模态。

核心主干

蛋白质是生命活动的核心执行者，小分子是调控蛋白质功能、干预生命过程最重要的化学手段。它们是科学界的两大核心。

家族扩展

抗体是具有高度序列多样性与特异性识别能力的特殊蛋白质，是生物大分子家族中不可忽视的成员；化学反应与功能材料则从转化过程与物质组成的角度，进一步拓展了小分子化学空间的知识覆盖。

界面互作

蛋白质与小分子并非孤立存在，二者之间的界面互作——尤其是蛋白质结合口袋对小分子配体的选择性识别——构成了连接生物大分子与化学实体的关键纽带，也是理解分子识别机制与药物作用机制的基础。

基于这套逻辑，LOGOS构建了涵盖7类模态、总计44.87B tokens的庞大预训练语料库：

生物大分子层蛋白质（28.9B tokens）+ 抗体（3.0B tokens）
化学实体与转化层小分子（2.1B tokens）+ 化学反应与MOF材料（0.47B tokens）
界面互作层蛋白质口袋（5.8B tokens）+ 蛋白口袋-配体复合物（4.6B tokens）

这就确保了这本“字典”不仅词汇量大，而且符合真实的科学规律。

创新点一：统一"科学语法" + 空间交互的离散化

这是LOGOS最具突破性的设计，由两个相辅相成的部分构成。

技术A：统一词汇表，万物皆可Token

LOGOS设计了一套共享词表，把蛋白质、小分子、材料等原本“鸡同鸭讲”的异构对象，全部编码成统一的离散Token序列。这让它们得以在同一个生成空间中被大模型“自回归”地理解和生成。

技术B：无需3D坐标，用序列读懂空间

传统AI要看懂蛋白质和小分子怎么结合，必须依赖显式3D坐标和复杂的几何神经网络。LOGOS则发明了一种“文字描述法”：它把3D空间接触模式直接“语法化”为离散Token。

具体来说，它把蛋白质口袋的三维关系写成了三种递进的“文字序列”：
- 残基-口袋标注序列：先标出氨基酸级别的基本信息；
- 残基-口袋-小分子展开序列：加入表面接触信息，让结构更立体；
- 残基-口袋转换序列：通过一个特殊的标记，把氨基酸和分子结构在序列里强行“对齐”。

结果就是：LOGOS完全不需要输入3D坐标，仅靠“读文字”（序列预测），就能在脑海里构建出复杂的3D空间互作规律。

创新点二：预训练和下游任务，形式和目标完全一致

传统范式下，换一个研究环节（比如从结构预测换到分子生成），往往就得换一套新模型和新假设。同时，预训练目标与下游任务之间存在显著的“目标偏差”，这种“学用脱节”导致模型落地时需要大量微调。

LOGOS的科学语法设计彻底解决了这个问题：
- 形式一致：预训练数据的序列形式等于下游任务的输入输出形式；
- 目标一致：预训练的next-token prediction（预测下一个词）等于下游的条件生成目标。

这种form-objective alignment有效消除了预训练与下游应用之间的gap，无需复杂的适配层或大量微调即可激活生成能力。

创新点三：跨领域知识正向迁移，实验证实有效

统一语法不仅让科学对象们“语言相通”，更让它们在底层“知识共享”。为了验证LOGOS是否真的学会了跨领域的知识，团队进行了深入的探究。

验证“跨语言翻译”能力

模型看到蛋白质的“方言”（氨基酸口袋序列），能直接“翻译”出小分子的“方言”（SMILES结构）。这证明它真的学会了两者之间的对应关系。

验证统一语法组分的必要性

团队做了一个“拆解实验”：如果去除口袋与复合物数据，模型性能接近随机（Vina -3.57）；加入全部语法组分后性能大幅跃升（Vina -7.64）。每个设计环节的价值一目了然。

验证“1+1>2”的协同效应

让模型同时学四个任务，效果反而比各自独立训练更好，证明了跨领域的正向知识迁移确实存在。

LOGOS的实践证明了：AI for Science的发展不在于重新构建与LLM割裂的独立技术栈。而在于让科学基础模型与大语言模型深度对齐——共享架构、共享训练范式、共享推理基础设施——从而使基础模型真正成为AI4S的新入口。

通过继承LLM的预训练权重，科学模型能够直接复用vLLM推理加速、模型量化等成熟的工程基建，大幅降低训练与部署成本。同时，统一的语法空间打破了学科壁垒，使得生物、化学、材料等不同领域的数据能够在同一个模型框架内回流训练，形成跨领域的知识闭环。

从“筛选已知”到“设计未知”，LOGOS正在推动自然科学研究向“设计驱动”与“发现驱动”转变。未来，团队将进一步把这套“科学语法”扩展至基因组等更多领域，并探索科学语言与自然语言的深度融合，致力于构建一个真正通用的科学基础模型。

现在，欢迎体验与使用LOGOS。我们完整开源了模型权重、推理代码与技术报告：

HuggingFace：https://huggingface.co/LOGOS-Hub
GitHub：https://github.com/LOGOS-Hub/LOGOS
技术报告：https://arxiv.org/abs/2606.16905