国产GPU开源生态里程碑：SGLang×MUSA原生支持上线

2026-06-20阅读 0热度 0

国产GPU

5月10日，一场聚焦大模型推理与国产算力生态的技术沙龙落地北京。摩尔线程联合SGLang社区主办的“MUSA开源技术沙龙｜SGLang × MUSA Meetup”正式揭幕，现场汇聚了上百位核心开发者与开源社区贡献者。

现场热度远超预期。SGLang核心开发团队全员到场，TileLang、Triton、Mooncake等社区的技术领军人物也悉数亮相。近百名一线开发者围绕大模型推理引擎、算子编译、工程优化与生态共建等硬核议题，展开了一场高密度、深层次的技术交锋。

这是MUSA后端正式合入SGLang主线后的首次线下聚会，也是一次关键里程碑的集中展示。基于最新支持体系，开发者在SGLang中运行大语言模型或多模态推理任务时，可以直接调用摩尔线程全功能GPU，无需额外适配层。国产算力与国际主流推理框架之间的协同，正式进入“原生支持”阶段。

立足通用计算，以MUSA开放架构拥抱开源生态

摩尔线程CTO张钰勃在开场致辞中，深入拆解了MUSA（Meta-computing Unified System Architecture）统一系统架构的设计理念。他强调，摩尔线程从创立之初就锚定“通用计算”路线，底层计算平台必须真正通用且高度统一，才能支撑物理仿真、数字孪生到具身智能等未来演进，不为创新设限。同时，通过全产品线统一的指令集与架构标准，确保软件生态可持续积累。

针对开发者最关心的生态迁移问题，张钰勃直言：“MUSA在接口设计上最大程度复用开发者熟悉的GPU编程习惯。我们不想建立封闭生态，而是以零学习成本融入现有繁荣生态。”这种开放姿态，直接解释了MUSA为何能快速获得SGLang最新支持。未来摩尔线程将持续在框架底层创新上加大投入。

技术分享：从推理框架到算子内核，共探国产GPU落地路径

技术分享环节信息密度极高。SGLang、Triton、TileLang及Mooncake社区的核心专家，围绕推理框架、算子编译与训推系统等议题，带来了五场深度技术演讲。

解析演进路线，SGLang以创新架构挑战大模型推理极限

SGLang核心开发成员Xiaoyu Zhang（BBuf）重点解析了框架的关键演进：支撑DeepSeek-V4等模型的Prefill-Decode分离架构与分层缓存机制，以及Zero-overhead Speculative Decoding带来的推测解码效率跃升。在算子层，原有sgl-kernel包因体积膨胀（超1.5GB）已逐步迁移至全新Jit-kernel体系，基于TVM-FFI实现按需编译，大幅提升开发与发版效率。同时，SGLang积极引入Vibe Coding实践，利用AI Agent自动完成了超60项性能分析与调优任务。发布2026年Q2 Roadmap时，他明确表示摩尔线程MUSA已正式纳入SGLang硬件适配核心阵列，未来双方将深化原生算子支持，推动顶级推理框架与国产算力底座的“原生”级融合。

打通原生生态，MUSA释放主流模型“开箱即用”算力

摩尔线程Contributor ROCKSTAR分享了SGLang在MUSA平台上的优化与工程落地实践。他重点介绍了实现快速兼容的关键——torchada适配层。通过一次import torchada，开发者现有CUDA代码即可无缝运行在摩尔线程GPU上，大幅降低适配与维护成本。在算子层面，摩尔线程开源的MATE（MUSA AI Tensor Engine）算子库提供了高性能Attention与GEMM算子，已对接FlashAttention、FlashMLA、DeepGEMM等主流接口。目前基于MUSA的SGLang已支持DeepSeek、Qwen、GLM等主流大模型及Wan、LTX等视频生成模型，在MTT S5000等硬件上实现真正的“开箱即用”与无缝加速。截至5月12日，摩尔线程在SGLang主线累计提交47个PR，其中41个已合入，从环境构建到分布式推理的全链路已打通。

攻克关键算子优化，Triton助力构建跨芯片统一软件栈

北京智源人工智能研究院AI编译器研究员肖航的演讲，聚焦大模型Triton关键算子优化及其在MUSA平台上的深度适配。他介绍了旨在打通多种AI芯片的统一开源软件栈FlagOS，其FlagGEMs算子库已涵盖超497个算子，并依托FlagTree编译器与Triton-TLE语言扩展，实现跨芯片的高性能算子生成。通过融化、量化等方式加速Fused MoE和FP8 GEMM等算子性能4倍以上。在DeepSeek-V4的Day0适配中，通过摩尔线程专用的张量加速引擎与FlagOS调优方案，TTFT时延降低56.7%，吞吐量提升65.7%。这种跨芯片的统一抽象与优化机制，正在为摩尔线程等国产GPU构建更丰富、高效的算力应用生态。

破解硬件依赖，TileLang以极简抽象重塑算子开发范式

TileLang Maintainer唐正举深入探讨了TileLang在化解算子硬件依赖与性能调优上的核心优势。作为Tile级领域特定编程语言（DSL），通过对计算与数据搬运基本单元（Tile）的显式控制，开发者可用极简代码实现极致性能——例如约50行代码写出比肩FlashAttention专家库的kernel，在Attention-Sinks等算子上更获得20倍以上加速。TileLang提供Beginner、Developer、Expert三种编程模式，兼顾上手简易与深度调优；DeepSeek-V4已在训练中原生采用其编写核心kernel，达到硬件峰值性能。作为开源近一年即斩获超6000星的热门社区，TileLang正与MUSA生态深度联调，共同构建适配摩尔线程全功能GPU的高性能算子库。

践行极致解耦，Mooncake训推一体系统在国产GPU的高效实践

Mooncake Contributor马腾分享了Mooncake与SGLang深度结合的技术演进。其核心传输引擎（Transfer Engine）充分利用零拷贝RDMA与多协议支持，实现高吞吐与超低延迟；KV Cache Store将GPU显存、DRAM、SSD等异构存储统一池化，显著降低长上下文推理成本。在弹性EP架构中，Mooncake支持故障节点动态摘除与Expert映射调整，大幅提升集群容错能力；在RL权重更新场景，通过P2P传输将同步时间从53秒压缩至7.2秒。目前，摩尔线程已作为Mooncake项目的核心Maintainer之一，深度参与多节点通信协议等关键特性共建。

圆桌讨论：SGLang+MUSA 生态共建与工程化破局

圆桌对话环节，摩尔线程软件副总裁杨上山担任主持人，与Xiaoyu Zhang（BBuf）、ROCKSTAR、肖航、唐正举及马腾五位技术专家同台，围绕“SGLang + MUSA生态共建与工程化破局”展开深度探讨。

面对开源技术创新提速与国产多硬件生态复杂度加剧的双重挑战，嘉宾们从框架、算子、通信到系统架构逐一破题：BBuf呼吁框架层建立更干净的硬件抽象，避免侵入式修改；R0CKSTAR分享了MUSA在兼容CUDA生态过程中“接口兼容、底层创新”的关键路径；肖航结合Triton及TLE扩展，探讨可编程性与极致性能之间的再平衡策略；唐正举强调TileLang的Tile抽象可作为连接模型、算子和硬件的统一纽带，助力国产芯片全链路形成合力；马腾则从系统视角指出，最佳实践沉淀与端到端场景验证是生态繁荣的关键。嘉宾们一致认为，未来12个月应优先建立跨层级的统一抽象边界、标准化适配接口与共享基准测试体系，用开放协作替代重复适配，共同推动国产AI软硬件生态协同突破。

结语

这场“SGLang × MUSA Meetup”的成功举办，标志着MUSA后端合入SGLang主线后，国产GPU与全球顶级推理框架的协同从“代码共建”迈向了“生态共聚”。

通过与SGLang、TileLang、Triton、Mooncake等开源社区的紧密协作，摩尔线程不仅推动了MUSA平台与主流AI框架的深度适配，更以实际行动赋能开发者，持续助力国产算力与全球开源生态的深度融合。从一行行代码的提交合入，到线下社区的深度共聚，这条路走得扎实而长远。摩尔线程正携手顶尖开源力量，夯实国产GPU软件栈底座，与广大开发者一起加速AI应用的创新与落地。

国产GPU开源生态里程碑：SGLang×MUSA原生支持上线

立足通用计算，以MUSA开放架构拥抱开源生态

技术分享：从推理框架到算子内核，共探国产GPU落地路径

圆桌讨论：SGLang+MUSA 生态共建与工程化破局

相关阅读

最新教程

最新资讯