美团N-gram轻量化MoE模型:嵌入扩展新范式高效进化
大语言模型向稀疏化与高效化演进,正步入关键拐点。美团 LongCat 团队最新发布的 LongCat-Flash-Lite,给出了一条颇具启发性的路径——以 N-gram 嵌入技术为核心,提出“嵌入扩展”这一全新范式,而非传统 MoE 架构中惯用的“堆砌专家”策略。这为轻量化 MoE 的持续进化,以及大模型在低成本、高性能条件下的落地部署,打开了全新的解题视角。
一、行业困局:传统 MoE 架构的性能与成本瓶颈
混合专家(MoE)架构如今已成为大语言模型实现稀疏扩展的主流技术路线。其核心理念简单直接:通过增加专家模块的数量来提升模型能力。但随着专家数量不断膨胀,行业普遍遭遇两个棘手问题:首先是边际收益递减——新增专家带来的性能提升日益微弱,很难再实现效能同步增长;其次是系统开销激增——专家模块间通信与调度成本大幅攀升,推理效率下降、部署成本居高不下,严重制约了大模型在实际场景中的规模化落地。
围绕这一困局,美团 LongCat 团队进行了一系列分析与实验,得出一个关键判断:嵌入扩展相比专家扩展,能够获得更优的帕累托前沿。换言之,在特定条件下,通过扩展嵌入层参数,能够在更低系统开销下换取更出色的模型性能。这为 MoE 架构的高效演进开辟了全新突破口。
二、核心创新:N-gram 嵌入定义嵌入扩展新范式
LongCat-Flash-Lite 作为美团推出的轻量化 MoE 模型,总参数量达 685 亿,但每次推理仅需激活 29 亿至 45 亿参数。做到这一点,关键就在于创新的 N-gram 嵌入架构及嵌入扩展范式,从底层重构了参数分配逻辑与语义捕获方式。
(一)N-gram 嵌入层:精准捕捉局部上下文语义
N-gram 嵌入层的主要职责,是强化模型对局部上下文语义的理解精度。其实现方式是通过哈希函数,将当前 token 及其前序 N-1 个 token 构成的序列,映射为一个整体 N-gram 嵌入向量,再与该 token 的基础嵌入向量融合,从而实现语义信息的深度挖掘。
举个直观的例子:当模型处理“打开终端输入命令”这个短语时,传统嵌入方式可能会将“打开”“终端”“命令”拆解为独立语义单元,容易产生理解偏差。而 N-gram 嵌入则可将整个短语作为一个整体进行语义映射,精准锁定“编程操作”这一场景。语义理解的准确性与针对性随之显著提升。
(二)抗冲突与信号增强:保障嵌入层效能最大化
N-gram 嵌入在实际应用中面临一个关键挑战——哈希冲突。即不同的 N-gram 序列可能被映射到同一个嵌入向量,影响语义表达的唯一性。为此,LongCat 团队设计了双重抗冲突方案:
首先,将大型 N-gram 嵌入表拆分为多个子表,并对每个子表分别进行线性投影变换,从而大幅降低哈希碰撞概率。其次,精准设计 N-gram 嵌入表的词汇表大小,避开那些容易产生碰撞的尺寸区间。同时引入嵌入放大技术,通过添加缩放因子或层归一化,确保嵌入层的语义信号在深层网络的残差连接中不被注意力模块的输出淹没,从而保障其在整条前向传播路径中的贡献度。
(三)参数智能分配:重构 MoE 效能基线
LongCat-Flash-Lite 打破了传统 MoE 架构优先把参数分配给专家模块的惯例。它反其道而行之,将 31.4B 参数(占总参数的 46%)高效投入到 N-gram 嵌入层,形成“嵌入为主、专家为辅”的全新参数分配模式。这一设计带来两大核心优势:
一是降低系统开销。相较于单纯增加专家数量,嵌入层复杂度为 O(1),查找操作能避免参数扩容带来的计算线性增长,同时减少专家模块间的通信与调度开销。二是提升稀疏效能。在达到高模型稀疏度的同时,无需依赖更多专家模块,真正实现“低激活参、高性能”的效能平衡。
三、系统级优化:三重升级实现极致推理效率
为了让 N-gram 嵌入的理论优势真正转化为实际推理性能,美团 LongCat 团队在系统层面做了三重核心优化,构建起从模型结构到运行时系统的垂直优化体系,让轻量化 MoE 的高效性变得切实可行。
(一)专用缓存与内核优化:降低 I/O 与计算延迟
团队借鉴 KV Cache 设计思路,打造了一个名为 N-gram Cache 的专用缓存机制。它直接在 GPU 设备上管理 N-gram ID,与推理框架的动态调度逻辑实现低开销同步,大幅降低嵌入查找的 I/O 延迟。同时,通过定制 CUDA 内核以及广泛的内核融合技术,将 AllReduce、Residual Add、RMSNorm 等操作融合执行,再结合 PDL(Programmatic Dependent Launch)技术,有效提升 GPU 占用率,减少内核启动间隙,进一步压缩计算延迟。
(二)推测解码协同:放大稀疏激活优势
他们将 N-gram 嵌入的稀疏激活特性与推测解码策略做了深度协同。通过 3 步投机推理扩大实际批次大小,充分利用低激活参特性提升吞吐量。同时,考虑到草案模型(draft model)对延迟敏感,团队让其使用常规嵌入层,从而规避 N-gram 查找带来的计算开销,实现推理性能的又一次突破。
(三)长上下文支持:适配复杂场景需求
依托 YARN 技术,LongCat-Flash-Lite 能够支持最长 256K 的上下文窗口。这意味着它可以高效处理长文档分析、大规模代码解读、多轮复杂对话等场景,进一步拓宽轻量化 MoE 模型的应用边界。
经过多维度优化,LongCat-Flash-Lite 在典型负载下(输入 4K,输出 1K),其 API 可提供 500-700 token/s 的生成速度,推理效率远超同规模传统 MoE 模型,真正实现“轻量不轻质”的推理体验。
四、性能实测:关键场景表现卓越,综合能力均衡
LongCat-Flash-Lite 凭借创新的嵌入扩展范式与系统级优化,在智能体工具使用、编程任务等关键场景中展现出领先优势,同时在通用知识与推理能力上保持着均衡表现。这些实际数据充分验证了嵌入扩展范式的有效性。
(一)智能体工具使用:行业场景高分领先
在评估复杂工具使用与工作流执行的基准测试中,模型表现突出:
- τ²-Bench 行业场景:在电信(72.8 分)、零售(73.1 分)、航空(58.0 分)三大子场景中均取得最高分,证明其能精准理解并执行涉及专业工具的复杂指令。
- VitaBench 通用场景:以 7.0 分领先同类对比模型,验证其在多样化现实任务中的实用工具调用能力。
(二)编程任务:全链路能力碾压同级
在衡量编程实用技能的核心基准测试中,LongCat-Flash-Lite 展现强劲的问题解决能力,这也是其核心优势场景:
- 代码修复(SWE-Bench):54.4% 的准确率显著领先同规模对比模型,能有效处理真实软件工程中的 bug 修复、特性实现等任务。
- 终端命令执行(TerminalBench):33.75 分的成绩远超同类模型 15-20 分的常规区间,体现对开发者工作流中命令行操作的高精度理解。
- 多语言代码生成(SWE-Bench Multilingual):38.10% 的准确率展现了跨编程语言与软件生态的优秀泛化能力。
(三)通用能力:均衡稳健,中文优势明显
在综合能力评估中,模型保持了与自身规模相匹配的均衡表现,尤其在中文理解场景中具备突出优势:
- 综合知识(MMLU):85.52 分,与 Gemini 2.5 Flash-Lite(84.68 分)相当。
- 中文理解(C-Eval & CMMLU):分别取得 86.55 分与 82.48 分,很适合中文场景下的各类应用需求。
- 复杂推理与数学推理:在 MMLU-Pro、GPQA-Diamond 等复杂推理基准中表现稳健,在基础数学与竞赛级数学问题上均能实现高效的多步推演。
五、行业意义:开源赋能,重构大模型高效进化路径
LongCat-Flash-Lite 的发布,不仅是美团在大模型领域的一次重要技术突破,更打破了行业内“更多专家=更强能力”的惯性思维。它为行业提供了一条全新的进化路径——通过 N-gram 嵌入与系统级优化的协同设计,用更少的动态激活参数,实现与更大规模模型比肩的竞争力。这才是真正的“轻量化与高性能”的平衡。
技术的价值在于开放与协作。为了推动嵌入扩展范式的普及与创新,美团已全面开源 LongCat-Flash-Lite 的模型权重及技术细节,采用 MIT 协议,并支持 Hugging Face 生态无缝集成。这为全球开发者提供了一个扎实的起点,可以一起来体验、研究和共建,共同探索大模型高效部署的更多可能性。
从实际应用价值来看,这款模型的轻量化特性与高效推理能力,能够大幅降低大模型的部署成本与门槛。它特别适合智能体开发、代码辅助、长文档处理等高频场景,在为美团自身业务赋能的同时,也能为互联网、零售、电信等多个行业的数字化转型提供有力的技术支撑。
结语
美团基于 N-gram 的全新模型,用嵌入扩展新范式打破了传统 MoE 架构的效能困局,实现了轻量化 MoE 的高效进化。它用实际行动证明了“嵌入扩展优于专家扩展”的核心价值。在大模型向规模化、实用化深度演进的今天,这种“重嵌入、轻专家”的创新思路,或许会引领大模型稀疏化发展的新趋势,推动更多低成本、高性能的大模型落地应用,让 AI 技术真正赋能产业、服务生活。
