寒武纪原生适配DeepSeek-V4深度评测:国产AI芯片与模型的强强联合表现
备受瞩目的国产大模型DeepSeek-V4于今日上午正式发布。
发布伊始,基于寒武纪芯片与vLLM推理框架的适配工作即告完成,全面支持此次推出的285B DeepSeek-V4-flash与1.6T DeepSeek-V4-pro两个版本。这标志着国产大模型与国产算力平台的协同优化,取得了又一关键进展。
从DeepSeek-V3.2到V4,寒武纪连续实现了新模型的“Day 0”首发适配。这一成果源于其长期在自研NeuWare软件生态与芯片架构上的技术沉淀,以及对“芯片-算法协同设计”路径的坚定投入。DeepSeek-V4能够原生运行于寒武纪芯片,是中国人工智能产业链自主化进程中的一个重要节点。此前,双方通过深度的软硬件协同优化,已在算力利用率方面达到行业领先水准。
本次适配,从“快速模型迁移”与“极致性能调优”两个维度,集中体现了寒武纪的核心技术能力。
快速完成 DeepSeek-V4 新模型适配,实现 Day 0 首发
实现模型发布当日的“Day 0”适配,依赖于一套从软件生态到硬件架构的系统性方案。
软件层面,寒武纪NeuWare软件栈全面兼容PyTorch、vLLM、Diffusers等主流AI框架,为模型快速迁移提供了基础。
通过与FlagOS生态的深度集成,寒武纪致力于打破模型与异构芯片架构间的生态隔阂,进一步降低模型迁移的工程成本。
在核心算子开发环节,团队利用Triton良好的社区兼容性与易用性,加速了算子的开发与适配流程,缩短了功能验证周期。
为提升开发效率,寒武纪研发了CNAgent代码生成智能体,可辅助完成从算子生成到模型迁移的全流程工作。
硬件层面,寒武纪芯片原生支持主流低精度数据格式,无需额外格式转换即可完成功能适配与精度验证。正是这种软硬件深度协同,确保了模型在发布当日即可实现稳定部署与运行。
极致性能优化,释放 DeepSeek-V4 推理潜能
实现功能适配后,性能优化成为关键。针对DeepSeek-V4引入的新架构特性,寒武纪进行了专项深度优化。
一方面,通过自研的高性能融合算子库Torch-MLU-Ops,对模型中的Compressor、mHC等关键模块进行专项加速。同时,利用BangC高性能编程语言,为稀疏Attention、GroupGemm等核心算子编写了深度优化的Kernel,充分释放硬件算力。
另一方面,在推理框架优化上,寒武纪在vLLM中全面实现了TP/PP/SP/DP/EP 5D混合并行、通信计算重叠、低精度量化及PD分离部署等先进技术。通过一系列调度与策略优化,在满足时延要求的前提下,最大化词元吞吐量,提升端到端推理效率。
硬件特性被深度利用:借助MLU的访存与排序加速能力,有效优化了稀疏Attention、Indexer等结构的性能;凭借高互联带宽与低通信延迟的优势,将Prefill与Decode阶段不同工作负载的通信开销降至最低,提升分布式推理的算力利用率。
从硬件特性出发的软硬件一体化设计思路,使寒武纪能够在大模型实际部署中持续追求更优的能效比与性能表现。未来,寒武纪将继续深耕大模型软硬件协同生态,致力于为开发者提供更高性能、更低成本的大模型部署解决方案。


