斯坦福首个原生3D腹部CT视觉语言模型Merlin：基于2.5万临床数据，752类任务夺冠

2026-06-11阅读 0热度 0

斯坦福大学

CT（Computed Tomography）堪称现代临床影像诊断的基石，广泛应用于全身多部位病变的筛查与鉴别。一组数据足以说明其普及程度：全球CT年检查量已逼近3亿次，其中腹部CT约占四分之一。影像诊断需求随临床依赖度持续攀升，但放射科医师完成一例腹部CT图像判读平均需要20分钟——这一效率显然无法匹配日益增长的临床需求。更严峻的是，放射科人力资源缺口巨大。据预测，到2036年，部分地区放射科医师缺口将超过19,000人。行业供需矛盾已成燃眉之急。

在此背景下，机器学习技术登场。凭借强大的数据处理与高通量分析能力，机器可快速完成海量医学影像的特征提取与智能识别，精准弥补人工阅片效率低、人力不足的痛点。尤其视觉语言模型，在CLIP预训练技术推动下，文本表征与视觉表征可在共享嵌入空间中对齐，实现用自然语言直接监督视觉模型。这类基础模型不仅具备零样本学习潜力，还能结合大语言模型，经临床数据训练后快速适配放射科的影像与报告分析任务。

技术进展并非纸上谈兵。目前基于VLM的方法已在放射学领域展现出可观的应用潜力，BiomedCLIP、LLaVA-Rad、Med-PaLMM等模型已走出实验室。但技术进步不等于成熟应用。VLMs在实际部署中仍面临多项关键挑战，这些障碍直接制约了其在临床场景中的深度普及与可靠应用。

具体而言，问题集中在两个方向。**首先，**现有方法多聚焦X光片等二维影像，处理腹部CT这类三维影像时适用性受限。依赖切片聚合解析整个容积，流程繁琐且效率低下。**其次，**目前尚无公开的腹部CT数据集专用于VLM训练与评估，私有模型也未充分融合诊断编码、放射报告等多模态临床数据，更缺乏统一的三维腹部CT任务基准。这意味着相关基础模型的训练与评价体系存在显著空白。

针对上述挑战，**斯坦福大学研究团队推出了首个针对腹部CT的原生三维视觉语言基础模型——Merlin，同时发布了包含25,494例腹部CT扫描与放射学报告配对的数据集。**Merlin的核心优势在于直接利用真实医院中配对的CT扫描、电子健康记录诊断代码和放射学报告——涵盖结构化与非结构化数据——在单张NVIDIA A6000 GPU上完成训练。研究团队在5,137个CT扫描上开展内部验证，并在44,098个CT扫描及两个腹部CT专用公开数据集（VerSe和TotalSegmentator）上进行外部验证。结果明确：在基准测试任务中，Merlin全面超越特定基线模型。

相关研究成果以「Merlin: a computed tomography vision–language foundation model and dataset」为题，发表于Nature。

研究亮点：

* 首次提出针对腹部CT的原生三维视觉语言基础模型Merlin，彻底突破2D影像的局限
* 发布包含25,494例腹部CT扫描与放射学报告配对的大规模数据集，填补该领域数据空白
* 创新性融合结构化EHR数据与非结构化放射学报告作为监督信号，同时提出多任务学习与分阶段训练的多阶段预训练框架

论文地址：

https://www.nature.com/articles/s41586-026-10181-8

填补VLMs训练与评估数据空白

为弥补公开腹部CT数据集的缺失，研究团队直接从真实医疗中心调取合规数据，**最终发布高质量临床数据集，包含18,321例患者，每例均包含配对的CT扫描、非结构化放射学报告和结构化EHR。**具体构成如下：

* CT扫描数据：

数据来源于全腹部CT检查，每份包含多个序列，研究选取轴位切片最多的序列以最大化信息量。此过程从25,528次CT扫描中获取了10,628,509张二维图像。

* 放射学报告：

每项CT检查对应的放射报告均被整理。报告包含多个部分，核心为「findings」和「impression」：前者记录各器官系统的详细观察结果；后者总结关键临床发现。基于信息粒度及已有工作有效性，训练仅采用「findings」部分，共计10,051,571个token。

* EHR：

数据采用国际疾病分类代码形式的诊断信息，这些ICD代码与患者CT检查时的就诊记录绑定。数据集中总计包含954,013条ICD9代码（涉及5,686条唯一代码），以及2,041,280条ICD10代码（涉及10,867条唯一代码）。

数据划分上，预训练数据集按60%（15,331例CT扫描）、20%（5060例CT扫描）、20%（5137例CT扫描）的比例，分别用于训练、验证和测试。为确保严谨，同一患者的多项CT扫描不会出现在同一数据划分中。

此外，**实验还用上三个独立机构的44,098例数据做外部验证，全部用于测试。**具体分布如下：

* 外部数据集1：包含6,997例腹部CT扫描
* 外部数据集2：包含25,986例腹部CT扫描
* 外部数据集3：包含4,872例腹部CT扫描和6,243例胸部CT扫描

另外两个腹部CT公开数据集为VerSe和TotalSegmentator。VerSe数据集包含160次CT扫描；TotalSegmentator包含401次CT扫描，其中34份经筛选的数据用于多任务多疾病预测的预训练与测试，剩余367份按80%（293份）、20%（74份）划分，分别用于训练和验证。

多任务学习与分阶段训练策略，差异化方案确保Merlin高效

模型架构上，**Merlin采用图像编码器与文本编码器双重架构，实现「图像-文本」对齐。**图像编码器选用I3D ResNet152，通过「Inflation」技术复用二维预训练模型权重，直接复制到三维卷积核的第三维；文本编码器则采用Clinical Longformer。其优势在于超越生物医学预训练模型与通用CLIP文本编码器，长文本处理能力一流——支持4,096的长上下文，足以应对报告的长文本需求。

Merlin训练与评估概述

训练策略方面，Merlin使用两种损失函数分别处理表型分类任务和放射学报告：**表型分类采用二元交叉熵损失函数；放射学报告对比学习采用InfoNCE损失函数。**图像与文本的嵌入维度统一设定为512，与OpenCLIP实验中ViT-Base模型的嵌入维度保持一致。训练时，视觉编码器和文本编码器均启用梯度检查点技术，并采用FP16混合精度训练。

优化器选用AdamW，初始学习率1 x10⁻⁵，β =（0.9，0.999），搭配余弦学习率调度器，将学习率衰减至0的训练轮次设为300。硬件采用单张48GB A6000 GPU，最大批次大小为18。

除了以多任务方式联合使用EHR表型和放射学报告做训练，**研究团队还设计了分阶段训练方案。**第一阶段使用EHR诊断代码训练Merlin的图像编码器；第二阶段利用放射学报告进行对比训练。为防止遗忘第一阶段学到的EHR信息，第二阶段训练时给表型损失函数设置较低权重。

第一阶段采用AdamW优化器，初始学习率1 x10⁻⁴，β =（0.9，0.999），指数学习率调度器的γ = 0.99，硬件仍为单张A6000 GPU，批次大小22。第二阶段的超参数与多任务训练保持一致。

总体而言，多任务学习与分阶段训练实现了两种策略的差异化设计，且研究团队针对分阶段训练做了抗遗忘改进。这种差异化训练策略是保障Merlin高效、严谨的核心设计——后续消融实验也证实了这一点。

752类任务全面评估，Merlin性能全面领先

实验环节，研究团队基于5,137个CT扫描做内部验证，并在44,098个CT扫描和两个腹部CT公开数据集上做外部验证，**总计6大类评估任务，涵盖752项具体细分任务。**大类任务包括零样本分类（31项细分任务）、表型分类（692项细分任务）、零样本跨模态检索（23项细分任务）、5年期疾病预测（6项细分任务）、放射学报告生成以及三维分割。

零样本分类任务中，针对30份来自内部和外部临床数据的腹部CT扫描，**Merlin在内部验证数据集上F1评分达0.741（95%置信区间0.727-0.755），在外部验证数据集上平均F1得分为0.647（95%置信区间0.607-0.678）。**这些评分显著高于采用k=1池化的2D OpenCLIP模型和微调后的2D BioMedCLIP模型（P<0.001）。结果一目了然：

零样本分类试验评估

从定性角度看，**Merlin在外部数据集上对特征显著的疾病——如胸腔积液、腹水——保持高性能，**但面对细粒度特征发现，如阑尾炎、淋巴结肿大，性能会略有下降。另外，若未分割放射学报告，Merlin在外部评估数据集上的平均F1得分为0.656（95%置信区间）。

消融实验对比中，**采用膨胀三维网络初始化的Merlin模型效果最优，**F1得分0.741（95%置信区间0.727-0.755）；对放射学报告做分割处理时，结合EHR与放射学报告的模型得分0.735（95%置信区间0.719-0.748）；仅用放射学报告并实施报告分割的方案排第三，F1分数0.730（95%置信区间0.714-0.744）。是否分割放射学报告对模型性能影响最为显著——未分割时，Merlin的F1分数平均下降7.9分（P<0.01）。

另一个值得关注的亮点是，**零样本Merlin在10%训练数据和100%训练数据的有监督实验中，均优于所有有监督基线。**使用100%训练数据时，F1得分提升29%；使用10%训练数据时，提升幅度高达45%。实验表明，在100%训练数据设置下，零样本Merlin显著优于有监督Merlin——F1分数提升16%。这正是零样本模型的魅力所在。

在表型分类任务中，实验评估了Merlin预测PheWAS定义的692种临床表型的性能，其宏平均AUROC值达0.812（95%置信区间0.808-0.816）。其中，258种表型的AUROC值超过0.85，102种表型突破0.9。

表型分类实验评估

分析内部测试集中发病率最高的前20个常见表型时，**Merlin在检测肝脏、肾脏、输尿管、胃肠道等多器官系统疾病方面，表现堪称卓越。**

零样本跨模态检索任务中，基于64个病例的「图像-发现」检索任务，**Merlin相比OpenCLIP和BioMedCLIP，优势显著。**这归功于Merlin采用的Clinical Longformer文本编码器——OpenCLIP和BioMedCLIP允许的最大token长度分别只有77和256，差距明显。反之，在「发现-图像」检索任务中，Merlin的优异表现同样得到验证。

零样本跨模态检索评估

更关键的证据是，Merlin虽仅使用报告中客观描述的「发现」部分进行视觉-语言对齐训练，**但在处理高度概括的报告「印象」时，仍能展现出强大的跨领域泛化能力，**且在逆向任务中也得到印证。尽管Merlin在外部测试数据集上的检索性能低于内部测试数据集，但其表现仍比其他外部基线高出5至7倍——差距呈数量级。

五年期疾病预测任务中，实验评估了Merlin预测健康患者未来五年内患多种重大慢性疾病的风险，包括慢性肾病、骨质疏松症、心血管疾病、缺血性心脏病、高血压和糖尿病。

对Merlin进行微调后，使用100%下游标签时，其预测五年内疾病发病的AUROC值达0.757（95%置信区间0.743-0.772），**比仅用图像的ImageNet预训练模型高出7%。**即便仅使用10%标签，Merlin预测五年内疾病发病的AUROC仍可达0.708（95%置信区间0.692-0.723），比ImageNet预训练模型高出4.4%。

五年期疾病预测评估

更令人印象深刻的是，**即便仅使用1/10的训练数据，Merlin的预测性能也能达到与使用100%数据训练的ImageNet预训练模型相当的水平。**这充分体现了Merlin的零样本能力与强大的迁移能力——这才是真正令业内瞩目的硬核成果。

放射学报告生成任务中，与基准模型RadFM对比，在RadGraph-F1、BERT Score、ROUGE-2和BLEU等量化指标测试中，**Merlin在所有解剖学逻辑结构及完整报告结果方面均优于RadFM。**

从质量上看，Merlin生成的报告质量较高，对病症的发现定位与描述极为准确。不过，偶尔会做出保守判断——例如少报人工报告中已提及的问题。这并不意外，基于CT扫描生成放射学报告仍处于早期演示阶段，随着报告质量提升，这些问题自然会改善。

三维语义分割任务中，仅使用10%训练数据时，Merlin在宏观平均Dice分数上比nnUNet框架高出4.7%；使用100%数据训练时，nnUNet框架表现略优于Merlin的初始化模型，但Dice分数差距仅为0.006——微乎其微。

在测试集的20个器官上，使用10%数据训练时，Merlin在12个器官上获得比nnUNet框架更高的Dice分数，其中前列腺分割的改进幅度高达41%。

外部验证试验中，研究团队利用超过10万份外部CT扫描数据集，在总计44,098份外部CT扫描上评估Merlin，**不同站点和解剖部位间均表现出稳定且精准的性能，成功克服了训练数据集与外部测试数据集之间的分布偏移。**更厉害的是，Merlin的表现持续优于其他架构基线模型，甚至在胸部任务上击败了专业的胸部CT基础模型——对于一个主打腹部的模型而言，这一成绩确实惊人。

视觉语言模型深挖大规模多模态医学数据潜在价值

除了这项研究，视觉语言模型在医学领域的其他成果也在不断涌现。例如同样来自斯坦福大学的研究团队，提出了MUSK——一种基于统一掩码建模的多模态Transformer，也是一种视觉语言基础模型，旨在整合大规模、未标记、非配对的图像和文本数据。

论文题目：A vision–language foundation model for precision oncology
论文地址：https://www.nature.com/articles/s41586-024-08378-w

上海交通大学等提出的知识增强病例基础模型KEEP，则解决了当前主要依赖数据驱动、缺乏对医学知识显式整合的问题。该模型利用11,454种疾病和139,143个属性的综合疾病知识图谱，将数百万病理图像-文本对重组为143,000个与疾病本体层级对齐的语义结构化组。这种知识增强的预训练方法，在分层语义空间中对齐视觉与文本表征，从而实现对疾病关系及形态学模式的深度理解。

论文题目：Knowledge-enhanced pretraining for vision-language pathology foundation model on cancer diagnosis
论文地址：https://www.sciencedirect.com/science/article/pii/S1535610826000589

总体而言，视觉语言模型凭借其跨模态理解能力，正在医学和放射学领域展现出巨大潜力。它能联动医学影像、病例文本和临床指南，实现病灶智能识别、病例辅助分析和诊断报告自动生成。这不仅为医师提供高效辅助工具，更为疾病预测开辟新思路，推动现代医疗从「经验驱动」加速迈向「数据驱动」。

斯坦福首个原生3D腹部CT视觉语言模型Merlin：基于2.5万临床数据，752类任务夺冠

填补VLMs训练与评估数据空白

多任务学习与分阶段训练策略，差异化方案确保Merlin高效

752类任务全面评估，Merlin性能全面领先

视觉语言模型深挖大规模多模态医学数据潜在价值

相关阅读

最新教程

最新资讯