腾讯混元开源DisCa视频生成加速方案 提速11.8倍获CVPR2026收录
腾讯混元开源DisCa:为少步视频生成模型引入可学习缓存,推理效率最高提升11.8倍
2026年4月,腾讯混元团队开源了一项针对少步蒸馏视频生成模型的关键加速方案——DisCa。该方案的核心在于一套创新的可学习特征缓存机制,有效规避了传统缓存方法中的误差累积问题。其结果是,在完全保持生成质量的前提下,实现了推理速度的显著飞跃,最高加速比达到11.8倍。这项研究已被CVPR 2026收录,其完整代码与预训练模型权重现已全面开放,供开发者直接集成与验证。
AI视频生成是当前需求最迫切、同时面临严峻效率挑战的领域。原生扩散模型通常需要数十甚至上百步推理才能生成合格视频,导致单次生成成本高昂。尽管知识蒸馏技术催生了步数更少的轻量级模型,但其推理开销对于需要批量生成的实际应用场景而言,依然构成主要瓶颈。
直接应用传统缓存技术进行加速?在多步模型上或许可行,但将其迁移至已蒸馏的少步模型时,缓存误差会被显著放大,导致生成画面质量严重下降。这一矛盾长期制约了少步模型性能潜力的进一步释放。
DisCa的核心突破:可学习的特征预测缓存
DisCa是首个系统性地为蒸馏后少步模型设计的可学习缓存加速方案。其设计思路明确:在模型步数已被压缩的基础上,进一步优化每一步推理的计算效率。
针对传统缓存误差大的痛点,DisCa设计了一个轻量级神经网络预测器。该预测器通过对抗学习进行训练,能够依据历史缓存特征,精准预测后续特征的演化路径。这从根本上抑制了误差传播,使得DisCa在确保视觉保真度的同时,将视频生成推理速度提升至最高11.8倍。
开源与易用性:推动行业快速落地
腾讯混元团队此次采取了完全开源策略,公开了全部代码与模型权重。该技术的另一大优势在于其极低的部署门槛——它无需对现有少步视频生成模型进行重新训练,仅需以插件形式集成加速组件即可生效。这对于算力预算有限的中小团队而言,提供了一个直接降低推理成本的实用工具。
在生成式AI领域,基础模型架构持续演进,例如MIT何恺明团队提出的MeanFlow便在探索新的生成路径。而像DisCa这类专注于推理阶段优化的技术,能够与这些前沿框架协同工作,进一步压缩端到端的应用成本。行业逐渐认识到,正是这些针对关键瓶颈的专项优化,正逐步扫清AI视频生成迈向大规模商用的障碍。