斯坦福首个原生3D腹部CT视觉语言模型Merlin:基于2.5万临床数据,752类任务夺冠

2026-06-11阅读 0热度 0
斯坦福大学

CT(Computed Tomography)堪称现代临床影像诊断的基石,广泛应用于全身多部位病变的筛查与鉴别。一组数据足以说明其普及程度:全球CT年检查量已逼近3亿次,其中腹部CT约占四分之一。影像诊断需求随临床依赖度持续攀升,但放射科医师完成一例腹部CT图像判读平均需要20分钟——这一效率显然无法匹配日益增长的临床需求。更严峻的是,放射科人力资源缺口巨大。据预测,到2036年,部分地区放射科医师缺口将超过19,000人。行业供需矛盾已成燃眉之急。

在此背景下,机器学习技术登场。凭借强大的数据处理与高通量分析能力,机器可快速完成海量医学影像的特征提取与智能识别,精准弥补人工阅片效率低、人力不足的痛点。尤其视觉语言模型,在CLIP预训练技术推动下,文本表征与视觉表征可在共享嵌入空间中对齐,实现用自然语言直接监督视觉模型。这类基础模型不仅具备零样本学习潜力,还能结合大语言模型,经临床数据训练后快速适配放射科的影像与报告分析任务。

技术进展并非纸上谈兵。目前基于VLM的方法已在放射学领域展现出可观的应用潜力,BiomedCLIP、LLaVA-Rad、Med-PaLMM等模型已走出实验室。但技术进步不等于成熟应用。VLMs在实际部署中仍面临多项关键挑战,这些障碍直接制约了其在临床场景中的深度普及与可靠应用。

具体而言,问题集中在两个方向。**首先,**现有方法多聚焦X光片等二维影像,处理腹部CT这类三维影像时适用性受限。依赖切片聚合解析整个容积,流程繁琐且效率低下。**其次,**目前尚无公开的腹部CT数据集专用于VLM训练与评估,私有模型也未充分融合诊断编码、放射报告等多模态临床数据,更缺乏统一的三维腹部CT任务基准。这意味着相关基础模型的训练与评价体系存在显著空白。

针对上述挑战,**斯坦福大学研究团队推出了首个针对腹部CT的原生三维视觉语言基础模型——Merlin,同时发布了包含25,494例腹部CT扫描与放射学报告配对的数据集。**Merlin的核心优势在于直接利用真实医院中配对的CT扫描、电子健康记录诊断代码和放射学报告——涵盖结构化与非结构化数据——在单张NVIDIA A6000 GPU上完成训练。研究团队在5,137个CT扫描上开展内部验证,并在44,098个CT扫描及两个腹部CT专用公开数据集(VerSe和TotalSegmentator)上进行外部验证。结果明确:在基准测试任务中,Merlin全面超越特定基线模型。

相关研究成果以「Merlin: a computed tomography vision–language foundation model and dataset」为题,发表于Nature。

研究亮点:

* 首次提出针对腹部CT的原生三维视觉语言基础模型Merlin,彻底突破2D影像的局限
* 发布包含25,494例腹部CT扫描与放射学报告配对的大规模数据集,填补该领域数据空白
* 创新性融合结构化EHR数据与非结构化放射学报告作为监督信号,同时提出多任务学习与分阶段训练的多阶段预训练框架

论文地址:

https://www.nature.com/articles/s41586-026-10181-8

填补VLMs训练与评估数据空白

为弥补公开腹部CT数据集的缺失,研究团队直接从真实医疗中心调取合规数据,**最终发布高质量临床数据集,包含18,321例患者,每例均包含配对的CT扫描、非结构化放射学报告和结构化EHR。**具体构成如下:

* CT扫描数据:

数据来源于全腹部CT检查,每份包含多个序列,研究选取轴位切片最多的序列以最大化信息量。此过程从25,528次CT扫描中获取了10,628,509张二维图像。

* 放射学报告:

每项CT检查对应的放射报告均被整理。报告包含多个部分,核心为「findings」和「impression」:前者记录各器官系统的详细观察结果;后者总结关键临床发现。基于信息粒度及已有工作有效性,训练仅采用「findings」部分,共计10,051,571个token。

* EHR:

数据采用国际疾病分类代码形式的诊断信息,这些ICD代码与患者CT检查时的就诊记录绑定。数据集中总计包含954,013条ICD9代码(涉及5,686条唯一代码),以及2,041,280条ICD10代码(涉及10,867条唯一代码)。

数据划分上,预训练数据集按60%(15,331例CT扫描)、20%(5060例CT扫描)、20%(5137例CT扫描)的比例,分别用于训练、验证和测试。为确保严谨,同一患者的多项CT扫描不会出现在同一数据划分中。

此外,**实验还用上三个独立机构的44,098例数据做外部验证,全部用于测试。**具体分布如下:

* 外部数据集1:包含6,997例腹部CT扫描
* 外部数据集2:包含25,986例腹部CT扫描
* 外部数据集3:包含4,872例腹部CT扫描和6,243例胸部CT扫描

另外两个腹部CT公开数据集为VerSe和TotalSegmentator。VerSe数据集包含160次CT扫描;TotalSegmentator包含401次CT扫描,其中34份经筛选的数据用于多任务多疾病预测的预训练与测试,剩余367份按80%(293份)、20%(74份)划分,分别用于训练和验证。

多任务学习与分阶段训练策略,差异化方案确保Merlin高效

模型架构上,**Merlin采用图像编码器与文本编码器双重架构,实现「图像-文本」对齐。**图像编码器选用I3D ResNet152,通过「Inflation」技术复用二维预训练模型权重,直接复制到三维卷积核的第三维;文本编码器则采用Clinical Longformer。其优势在于超越生物医学预训练模型与通用CLIP文本编码器,长文本处理能力一流——支持4,096的长上下文,足以应对报告的长文本需求。

Merlin训练与评估概述

训练策略方面,Merlin使用两种损失函数分别处理表型分类任务和放射学报告:**表型分类采用二元交叉熵损失函数;放射学报告对比学习采用InfoNCE损失函数。**图像与文本的嵌入维度统一设定为512,与OpenCLIP实验中ViT-Base模型的嵌入维度保持一致。训练时,视觉编码器和文本编码器均启用梯度检查点技术,并采用FP16混合精度训练。

优化器选用AdamW,初始学习率1 x10⁻⁵,β =(0.9,0.999),搭配余弦学习率调度器,将学习率衰减至0的训练轮次设为300。硬件采用单张48GB A6000 GPU,最大批次大小为18。

除了以多任务方式联合使用EHR表型和放射学报告做训练,**研究团队还设计了分阶段训练方案。**第一阶段使用EHR诊断代码训练Merlin的图像编码器;第二阶段利用放射学报告进行对比训练。为防止遗忘第一阶段学到的EHR信息,第二阶段训练时给表型损失函数设置较低权重。

第一阶段采用AdamW优化器,初始学习率1 x10⁻⁴,β =(0.9,0.999),指数学习率调度器的γ = 0.99,硬件仍为单张A6000 GPU,批次大小22。第二阶段的超参数与多任务训练保持一致。

总体而言,多任务学习与分阶段训练实现了两种策略的差异化设计,且研究团队针对分阶段训练做了抗遗忘改进。这种差异化训练策略是保障Merlin高效、严谨的核心设计——后续消融实验也证实了这一点。

752类任务全面评估,Merlin性能全面领先

实验环节,研究团队基于5,137个CT扫描做内部验证,并在44,098个CT扫描和两个腹部CT公开数据集上做外部验证,**总计6大类评估任务,涵盖752项具体细分任务。**大类任务包括零样本分类(31项细分任务)、表型分类(692项细分任务)、零样本跨模态检索(23项细分任务)、5年期疾病预测(6项细分任务)、放射学报告生成以及三维分割。

零样本分类任务中,针对30份来自内部和外部临床数据的腹部CT扫描,**Merlin在内部验证数据集上F1评分达0.741(95%置信区间0.727-0.755),在外部验证数据集上平均F1得分为0.647(95%置信区间0.607-0.678)。**这些评分显著高于采用k=1池化的2D OpenCLIP模型和微调后的2D BioMedCLIP模型(P<0.001)。结果一目了然:

零样本分类试验评估

从定性角度看,**Merlin在外部数据集上对特征显著的疾病——如胸腔积液、腹水——保持高性能,**但面对细粒度特征发现,如阑尾炎、淋巴结肿大,性能会略有下降。另外,若未分割放射学报告,Merlin在外部评估数据集上的平均F1得分为0.656(95%置信区间)。

消融实验对比中,**采用膨胀三维网络初始化的Merlin模型效果最优,**F1得分0.741(95%置信区间0.727-0.755);对放射学报告做分割处理时,结合EHR与放射学报告的模型得分0.735(95%置信区间0.719-0.748);仅用放射学报告并实施报告分割的方案排第三,F1分数0.730(95%置信区间0.714-0.744)。是否分割放射学报告对模型性能影响最为显著——未分割时,Merlin的F1分数平均下降7.9分(P<0.01)。

另一个值得关注的亮点是,**零样本Merlin在10%训练数据和100%训练数据的有监督实验中,均优于所有有监督基线。**使用100%训练数据时,F1得分提升29%;使用10%训练数据时,提升幅度高达45%。实验表明,在100%训练数据设置下,零样本Merlin显著优于有监督Merlin——F1分数提升16%。这正是零样本模型的魅力所在。

在表型分类任务中,实验评估了Merlin预测PheWAS定义的692种临床表型的性能,其宏平均AUROC值达0.812(95%置信区间0.808-0.816)。其中,258种表型的AUROC值超过0.85,102种表型突破0.9。

表型分类实验评估

分析内部测试集中发病率最高的前20个常见表型时,**Merlin在检测肝脏、肾脏、输尿管、胃肠道等多器官系统疾病方面,表现堪称卓越。**

零样本跨模态检索任务中,基于64个病例的「图像-发现」检索任务,**Merlin相比OpenCLIP和BioMedCLIP,优势显著。**这归功于Merlin采用的Clinical Longformer文本编码器——OpenCLIP和BioMedCLIP允许的最大token长度分别只有77和256,差距明显。反之,在「发现-图像」检索任务中,Merlin的优异表现同样得到验证。

零样本跨模态检索评估

更关键的证据是,Merlin虽仅使用报告中客观描述的「发现」部分进行视觉-语言对齐训练,**但在处理高度概括的报告「印象」时,仍能展现出强大的跨领域泛化能力,**且在逆向任务中也得到印证。尽管Merlin在外部测试数据集上的检索性能低于内部测试数据集,但其表现仍比其他外部基线高出5至7倍——差距呈数量级。

五年期疾病预测任务中,实验评估了Merlin预测健康患者未来五年内患多种重大慢性疾病的风险,包括慢性肾病、骨质疏松症、心血管疾病、缺血性心脏病、高血压和糖尿病。

对Merlin进行微调后,使用100%下游标签时,其预测五年内疾病发病的AUROC值达0.757(95%置信区间0.743-0.772),**比仅用图像的ImageNet预训练模型高出7%。**即便仅使用10%标签,Merlin预测五年内疾病发病的AUROC仍可达0.708(95%置信区间0.692-0.723),比ImageNet预训练模型高出4.4%。

五年期疾病预测评估

更令人印象深刻的是,**即便仅使用1/10的训练数据,Merlin的预测性能也能达到与使用100%数据训练的ImageNet预训练模型相当的水平。**这充分体现了Merlin的零样本能力与强大的迁移能力——这才是真正令业内瞩目的硬核成果。

放射学报告生成任务中,与基准模型RadFM对比,在RadGraph-F1、BERT Score、ROUGE-2和BLEU等量化指标测试中,**Merlin在所有解剖学逻辑结构及完整报告结果方面均优于RadFM。**

从质量上看,Merlin生成的报告质量较高,对病症的发现定位与描述极为准确。不过,偶尔会做出保守判断——例如少报人工报告中已提及的问题。这并不意外,基于CT扫描生成放射学报告仍处于早期演示阶段,随着报告质量提升,这些问题自然会改善。

三维语义分割任务中,仅使用10%训练数据时,Merlin在宏观平均Dice分数上比nnUNet框架高出4.7%;使用100%数据训练时,nnUNet框架表现略优于Merlin的初始化模型,但Dice分数差距仅为0.006——微乎其微。

在测试集的20个器官上,使用10%数据训练时,Merlin在12个器官上获得比nnUNet框架更高的Dice分数,其中前列腺分割的改进幅度高达41%。

外部验证试验中,研究团队利用超过10万份外部CT扫描数据集,在总计44,098份外部CT扫描上评估Merlin,**不同站点和解剖部位间均表现出稳定且精准的性能,成功克服了训练数据集与外部测试数据集之间的分布偏移。**更厉害的是,Merlin的表现持续优于其他架构基线模型,甚至在胸部任务上击败了专业的胸部CT基础模型——对于一个主打腹部的模型而言,这一成绩确实惊人。

视觉语言模型深挖大规模多模态医学数据潜在价值

除了这项研究,视觉语言模型在医学领域的其他成果也在不断涌现。例如同样来自斯坦福大学的研究团队,提出了MUSK——一种基于统一掩码建模的多模态Transformer,也是一种视觉语言基础模型,旨在整合大规模、未标记、非配对的图像和文本数据。

论文题目:A vision–language foundation model for precision oncology
论文地址:https://www.nature.com/articles/s41586-024-08378-w

上海交通大学等提出的知识增强病例基础模型KEEP,则解决了当前主要依赖数据驱动、缺乏对医学知识显式整合的问题。该模型利用11,454种疾病和139,143个属性的综合疾病知识图谱,将数百万病理图像-文本对重组为143,000个与疾病本体层级对齐的语义结构化组。这种知识增强的预训练方法,在分层语义空间中对齐视觉与文本表征,从而实现对疾病关系及形态学模式的深度理解。

论文题目:Knowledge-enhanced pretraining for vision-language pathology foundation model on cancer diagnosis
论文地址:https://www.sciencedirect.com/science/article/pii/S1535610826000589

总体而言,视觉语言模型凭借其跨模态理解能力,正在医学和放射学领域展现出巨大潜力。它能联动医学影像、病例文本和临床指南,实现病灶智能识别、病例辅助分析和诊断报告自动生成。这不仅为医师提供高效辅助工具,更为疾病预测开辟新思路,推动现代医疗从「经验驱动」加速迈向「数据驱动」。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策