SGLang MeetUp 沐蜥芯生开源共创深度回顾:人工智能推理落地新路径与实战经验

2026-06-12阅读 0热度 0
ai

6 月 6 日,一场聚焦 SGLang 推理技术栈的 Meetup 在北京顺利举行。本次活动由沐曦股份联合龙蜥社区与 SGLang 社区共同发起,线上观看量突破 65 万人次,现场聚集了上百位技术专家与高校学生。内容硬核、节奏紧凑,全程围绕大模型推理落地的真实瓶颈与性能优化展开讨论,没有任何虚浮的包装。

今年 OpenClaw 推出的“龙虾”Agent 智能体引发行业高度关注,随之而来的 PD 分离、长上下文 KV Cache 显存管理、多智能体推理等话题成为热议焦点。本次 Meetup 设置了五场主题演讲与一场圆桌讨论,从底层可观测性到上层多智能体架构,系统性地勾勒了 SGLang 推理生态的全景图。

首位演讲嘉宾是 SGLang Core Maintainer 童心源。他回顾了 SGLang 这一开源推理框架的发展历程,重点拆解了 PD 分离、多模态模型支持、强化学习及后训练部署等关键技术节点的突破细节。社区在该方向上的推进速度,比外界预期的要快得多。

(图:童心源)

龙蜥社区的苏峰与常怀鑫联合登台,围绕可观测性展开分享。他们回顾了 SGLang Tracing 的建设路径,并结合真实案例,演示如何利用 AI Agent 反哺推理框架的性能优化——典型的“用魔法打败魔法”实践。

下半场首场演讲来自阿里云高级技术专家马腾。他分享了基于 Mooncake 的多智能体推理架构优化方案,核心思路清晰:将 KV Cache 显存视为“物理工作记忆”,通过 PD 分离与全局共享显存池,实现“一次计算、全局复用”的记忆共享机制。

(图:马腾)

腾讯云高级工程师陈凯悦则将视角转向企业级落地。他详细拆解了 HiCache 与 Mooncake 从社区组件演变为内部推理集群标配的过程,并分享了在真实客户环境中踩过的坑与填坑经验。

(图:陈凯悦)

压轴演讲由沐曦股份的杨鑫带来,主题为沐曦 GPU 深度适配 SGLang 的工程实践。他从适配流程、自研 MXMACA 软件栈,到最新模型兼容性与性能优化成果,信息密度极高,清晰展现了国产算力在推理生态中的加速融入。

(图:杨鑫)

五场分享结束后,现场提问环节火花四溅,与会者关注的全是实际部署中的真实问题,没有一句空话套话。

圆桌对话:异构算力下的推理效能革命

圆桌环节由沐曦 AI 研究院院长李兆石主持,与童心源、常怀鑫、马腾、陈凯悦,以及沐曦 SGLang 核心开发者王志鹏围坐一桌。讨论聚焦“百万长上下文场景下 KV Cache 管理”“AI 存储需求演进方向”“云端 vs 本地部署取舍”等硬核议题。几位嘉宾的观点碰撞激烈,每个人都有一线实战的深厚沉淀。

整场活动最直观的感受是:SGLang 生态正从“能用”加速迈向“好用”。龙蜥社区与沐曦等生态伙伴,在推理性能优化、模型适配广度、开发者工具链等维度上,一步一个脚印地将开源推理蓝图转化为真正可落地的工程方案。

最后,衷心感谢所有分享嘉宾,以及沐曦和龙蜥社区的工作人员——范佳璐、陈韵霏、蒙秋红、刘瑞刚、李彪、章津楠、杨仰、蔡佳丽、金美琴、倪俊雄、袁艳桃等同事的全流程组织与支持。同时感谢 InfoQ、51CTO、阿里云 AI 生产力 Live 等媒体伙伴的传播助力,让这场技术交流触达更多同行。

附上本场活动 PPT 与视频回放链接,便于复盘:

PPT 下载链接:https://docs.openanolis.cn/document/detail/rpzigrnb

视频回放:https://openanolis.cn/video/#1644020499070544368

现场精彩集锦:

—— 完 ——

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策