SGLang MeetUp 沐蜥芯生开源共创深度回顾：人工智能推理落地新路径与实战经验

2026-06-12阅读 0热度 0

6 月 6 日，一场聚焦 SGLang 推理技术栈的 Meetup 在北京顺利举行。本次活动由沐曦股份联合龙蜥社区与 SGLang 社区共同发起，线上观看量突破 65 万人次，现场聚集了上百位技术专家与高校学生。内容硬核、节奏紧凑，全程围绕大模型推理落地的真实瓶颈与性能优化展开讨论，没有任何虚浮的包装。

今年 OpenClaw 推出的“龙虾”Agent 智能体引发行业高度关注，随之而来的 PD 分离、长上下文 KV Cache 显存管理、多智能体推理等话题成为热议焦点。本次 Meetup 设置了五场主题演讲与一场圆桌讨论，从底层可观测性到上层多智能体架构，系统性地勾勒了 SGLang 推理生态的全景图。

首位演讲嘉宾是 SGLang Core Maintainer 童心源。他回顾了 SGLang 这一开源推理框架的发展历程，重点拆解了 PD 分离、多模态模型支持、强化学习及后训练部署等关键技术节点的突破细节。社区在该方向上的推进速度，比外界预期的要快得多。

（图：童心源）

龙蜥社区的苏峰与常怀鑫联合登台，围绕可观测性展开分享。他们回顾了 SGLang Tracing 的建设路径，并结合真实案例，演示如何利用 AI Agent 反哺推理框架的性能优化——典型的“用魔法打败魔法”实践。

下半场首场演讲来自阿里云高级技术专家马腾。他分享了基于 Mooncake 的多智能体推理架构优化方案，核心思路清晰：将 KV Cache 显存视为“物理工作记忆”，通过 PD 分离与全局共享显存池，实现“一次计算、全局复用”的记忆共享机制。

（图：马腾）

腾讯云高级工程师陈凯悦则将视角转向企业级落地。他详细拆解了 HiCache 与 Mooncake 从社区组件演变为内部推理集群标配的过程，并分享了在真实客户环境中踩过的坑与填坑经验。

（图：陈凯悦）

压轴演讲由沐曦股份的杨鑫带来，主题为沐曦 GPU 深度适配 SGLang 的工程实践。他从适配流程、自研 MXMACA 软件栈，到最新模型兼容性与性能优化成果，信息密度极高，清晰展现了国产算力在推理生态中的加速融入。

（图：杨鑫）

五场分享结束后，现场提问环节火花四溅，与会者关注的全是实际部署中的真实问题，没有一句空话套话。

圆桌对话：异构算力下的推理效能革命

圆桌环节由沐曦 AI 研究院院长李兆石主持，与童心源、常怀鑫、马腾、陈凯悦，以及沐曦 SGLang 核心开发者王志鹏围坐一桌。讨论聚焦“百万长上下文场景下 KV Cache 管理”“AI 存储需求演进方向”“云端 vs 本地部署取舍”等硬核议题。几位嘉宾的观点碰撞激烈，每个人都有一线实战的深厚沉淀。

整场活动最直观的感受是：SGLang 生态正从“能用”加速迈向“好用”。龙蜥社区与沐曦等生态伙伴，在推理性能优化、模型适配广度、开发者工具链等维度上，一步一个脚印地将开源推理蓝图转化为真正可落地的工程方案。

最后，衷心感谢所有分享嘉宾，以及沐曦和龙蜥社区的工作人员——范佳璐、陈韵霏、蒙秋红、刘瑞刚、李彪、章津楠、杨仰、蔡佳丽、金美琴、倪俊雄、袁艳桃等同事的全流程组织与支持。同时感谢 InfoQ、51CTO、阿里云 AI 生产力 Live 等媒体伙伴的传播助力，让这场技术交流触达更多同行。

附上本场活动 PPT 与视频回放链接，便于复盘：

PPT 下载链接：https://docs.openanolis.cn/document/detail/rpzigrnb

视频回放：https://openanolis.cn/video/#1644020499070544368

现场精彩集锦：

—— 完 ——

SGLang MeetUp 沐蜥芯生开源共创深度回顾：人工智能推理落地新路径与实战经验

圆桌对话：异构算力下的推理效能革命

相关阅读

最新教程

最新资讯