首页 > 其他资讯 > 美的集团AI研究中心让AI读X光片的速度快了8倍,还更准确

美的集团AI研究中心让AI读X光片的速度快了8倍,还更准确

时间:26-04-22


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这项研究由美的集团AI研究中心(AIRC)联合北京交通大学、大连理工大学共同完成,相关论文(arXiv:2604.09450v1)已于2026年4月10日发布于预印本平台arXiv。

放射科医生的效率瓶颈

放射科医生每日需审阅数十至上百张胸部X光片,逐张分析并撰写结构化报告。这项工作高度依赖专业经验,且耗时费力。面对全球海量的影像检查需求与有限的专科医生资源,利用人工智能辅助影像解读与报告生成,成为一个极具价值的科研方向。

然而,现有AI模型多采用自回归方式逐词生成文本,如同串行打字,速度成为制约临床应用的瓶颈。美的集团AI研究中心团队提出的ECHO方案,成功将报告生成速度提升至原有水平的8倍,同时在关键临床准确性指标上超越了此前的最佳方法。

一、自回归生成的效率天花板

理解ECHO的突破,需厘清两种文本生成范式。

传统自回归模型遵循严格的顺序逻辑,生成每个词都依赖于之前的所有输出。这种方式确保了上下文连贯性,但其串行本质决定了速度存在理论上限。

扩散模型则采用并行化思路。它先在所有文本位置注入噪声,再通过多轮“去噪”步骤逐步还原出正确文本。由于可同时处理多个位置,其理论速度潜力更大。

但扩散模型存在“均值场偏差”问题:在并行预测时,模型难以有效建模词语间的依赖关系,可能导致生成内容语义混乱。为弥补此缺陷,模型需进行多轮迭代去噪,这虽比纯自回归快,但仍未达到理想的高效状态。

核心挑战在于:能否实现高质量的单步生成?

二、单步生成的固有难题

强制模型单步完成所有预测,反而会放大均值场偏差。在没有已生成上下文作为参考的“信息真空”下,模型输出极易变成无意义的词语堆砌。

研究论文中的对比实验直观展示了这一差距:普通扩散模型单步生成的结果语义破碎;而经ECHO方法处理后,同一张胸片的单步输出则能生成如“右下肺叶阴影”这样语义完整、具备明确临床指向的表述。

这揭示了一个关键洞见:速度与质量并非不可兼得,关键在于设计一种训练机制,使模型能在单步推理中有效捕捉词间依赖。

三、ECHO的三阶段训练框架

ECHO的训练流程分为三个紧密衔接的阶段,旨在系统性地构建高效且准确的生成能力。

第一阶段:医学知识奠基。 研究以医疗大模型Lingshu-7B为基础,使用经过深度清洗与标准化的胸片报告数据集进行继续训练。数据标准化的核心在于解决医学报告中的“沉默正常”问题——即报告通常只详细描述异常,而忽略对正常部位的明确陈述。团队强制模型对预定义的所有解剖区域都给出明确判断(正常或异常),这一举措显著降低了模型在推理时产生假阳性或假阴性的风险。此阶段产出模型ECHO-AR,具备高医学准确性,但仍为逐词生成模式。

第二阶段:并行架构转换。 此阶段通过“响应非对称扩散适配”(RAD)技术,将ECHO-AR转换为具备并行生成能力的扩散模型ECHO-Base。RAD的核心创新在于:它仅复制文本回复部分进行训练,而庞大的图像编码和指令信息仅保留一份,并通过精心设计的注意力掩码确保所有文本块都能访问完整的视觉上下文。这一设计将训练计算量降低了73%,速度提升3.7倍。ECHO-Base能够以“分块”方式生成报告,块内并行,块间有序。

第三阶段:单步性能蒸馏。 这是实现高速生成的核心步骤,应用了“直接条件蒸馏”(DCD)技术。其目标是让最终的ECHO模型仅用一步,就能达到老师模型(ECHO-Base)多步去噪的生成质量。DCD的独特之处在于构建了一个“非独立”的蒸馏目标:它记录老师模型在多步去噪过程中每一步的完整概率分布,并按时间顺序拼接,形成一个蕴含了丰富词间依赖关系的整体目标供学生学习。同时,DCD对预测难度较高的后期词汇分配更高权重,并针对模型可能出现的“重复循环”问题,加强了对段落结束符生成的专项监督。

四、推理优化:融合块KV缓存

在推理部署层面,团队提出了“融合块KV缓存”的工程优化。在分块生成框架下,传统方法每生成一个文本块需要进行两次前向计算:一次用于生成当前块内容,另一次用于更新供后续块参考的键值状态缓存。

融合缓存技术将这两个步骤合并为一次计算。模型在生成当前块时,同步完成对上一块记忆摘要的更新。经数学证明,该方法在不增加额外计算量的前提下,将每块所需的前向计算次数减半,直接降低了推理延迟。

五、实验数据与性能验证

研究在MIMIC-CXR、CheXpert-Plus和ReXGradient等多个公开胸片报告数据集上进行了全面评估。

与最优的自回归医疗模型相比,ECHO在核心临床指标RaTEScore和SemScore上分别提升了64.33%和60.58%,同时推理速度达到8倍提升。即使与参数量达270亿的MedGemma-27B相比,ECHO在所有临床指标上仍保持17%至40%的领先优势。

与同类扩散方法对比,ECHO在质量与速度的权衡上表现更优。在块大小为8(高吞吐量模式)的设置下,ECHO相比其前身ECHO-Base的质量损失仅为2%到5%,却换来了8倍加速。而竞争对手T3D在类似质量损失下仅实现2倍加速;dParallel方法在4.4倍加速时,临床指标下滑了18%到32%。

消融实验证实了各设计组件的价值:移除步骤加权会导致模型困惑度上升;加入结束符监督显著提升了生成稳定性;数据标准化的影响贯穿整个训练流程,若使用未标准化数据,模型性能会出现断崖式下跌,且损失被逐级放大。

六、技术影响与应用前景

ECHO的核心贡献在于,它实现了高质量医学报告的单步、快速生成,使AI辅助诊断工具更贴近实时响应的临床需求。这有望帮助放射科医生从重复性报告撰写中解放出来,将精力聚焦于复杂病例的鉴别诊断。

目前,ECHO在生成块较大时,仍偶现轻微的词语重复或拼写变形,这是其当前阶段的局限性。研究团队指出,这是为换取显著速度提升而可接受的权衡,并指明了后续的优化方向。

在方法论层面,这项研究验证了“一步离散扩散蒸馏”技术路径的可行性,为扩散语言模型的高效化研究提供了新的思路。团队声称这是首个成功应用于离散扩散语言模型的一步蒸馏框架。其实现的8倍加速与临床准确性的同步提升,标志着该领域的一个重要进展。

Q&A

Q1:ECHO模型在临床上能直接使用吗?

A:ECHO目前仍是一项研究成果,仅在学术数据集上完成验证,尚未经过严格的医疗器械审批和临床部署。但其技术路线已展现出明确的实用化潜力,为未来开发辅助诊断工具奠定了基础。

Q2:直接条件蒸馏(DCD)和普通的模型蒸馏有什么区别?

A:普通蒸馏学习的是老师模型对单个词语的独立预测分布。DCD的关键创新在于,它让学生模型学习老师在多步去噪过程中构建的、包含时序依赖关系的“联合预测目标”。这使得学生能在单步内模仿老师多步推理所形成的词语搭配模式,从而生成连贯文本。

Q3:响应非对称扩散适配(RAD)为什么能大幅降低训练成本?

A:根本原因在于其对视觉编码的高效复用。一张胸片的视觉编码包含约2870个特征片段。传统扩散转换方法需要完整复制包括这些视觉特征在内的整个输入序列,计算开销巨大。RAD通过架构设计,仅复制文本回复部分,让视觉和指令信息在所有回复块间共享,从而在保持信息完整性的前提下,将训练计算量降低了73%。


这就是美的集团AI研究中心让AI读X光片的速度快了8倍,还更准确的全部内容了,希望以上内容对小伙伴们有所帮助,更多详情可以关注我们的菜鸟游戏和软件相关专区,更多攻略和教程等你发现!

热搜     |     排行     |     热点     |     话题     |     标签

手机版 | 电脑版 | 客户端

湘ICP备2022003375号-1

本站所有软件,来自于互联网或网友上传,版权属原著所有,如有需要请购买正版。如有侵权,敬请来信联系我们,cn486com@outlook.com 我们立刻删除。