美团发布 LongCat-Flash-Lite 轻量化 MoE 模型，智能体与代码表现突出

2026-05-05阅读 0热度 0

美团模型美团 AI

美团发布LongCat-Flash-Lite：一款“聪明又省钱”的轻量化MoE大模型

大家好，今天（2月6日）科技圈有个挺有意思的新动向——美团正式发布了他们最新的大模型，叫做LongCat-Flash-Lite。说实话，光看这个名字就挺有辨识度的。这可不是个普通的模型，它是一个采用了MoE（混合专家）架构的大家伙，总参数量高达685亿。但重点来了，它每次推理时，真正动用的“脑细胞”只有29亿到45亿左右。这意味着什么？简单来说，就是它用了一种非常巧妙的结构，既保有了庞大的知识储备，又能在实际干活时保持极高的效率，颇有点“养兵千日，用兵一时”的智慧。

那么，它具体是怎么做到的呢？根据官方披露，模型里有超过300亿的参数都被用在了嵌入层上。这个设计非常关键，在我看来，它就像是为模型构建了一个异常丰富和细腻的“词汇理解与联想网络”。正是得益于这种独特结构，LongCat-Flash-Lite在性能上不仅超越了同参数级别的MoE基线模型，而且在跟市面上现有同规模模型的对比中，也展现出了相当不俗的竞争力。特别值得一提的是，它在智能体和代码生成这两个专业领域表现尤其突出，这对于开发者来说，无疑是个值得关注的好消息。

另外，模型还依托了YARN技术，可以支持长达256K的上下文长度。这在实际应用中意味着什么呢？我举个简单的例子，像处理超长的技术文档、进行大规模的代码库分析这类对“记忆力”要求极高的任务，对它来说就能更高效地搞定，避免了那种“看到后面忘了前面”的尴尬。

当然，光有“聪明的大脑”还不够，推理速度同样是硬指标。LongCat-Flash-Lite在嵌入扩展和系统级优化上下了不少功夫，这让它的推理效率得到了大幅提升。根据官方数据，在输入4K、输出1K的典型工作负载下，通过LongCat API，它能实现每秒生成500到700个token的速度。这个速度是什么概念呢？大致上，它能让交互反馈变得非常流畅，等待感会明显降低。

最让人心动的是，美团这次是带着诚意来的。他们宣布向广大开发者开放LongCat-Flash-Lite版本的API接口。如果你感兴趣，可以直接登录LongCat API开放平台去申请。而且，平台还提供了每日5000万token的免费额度，这足够大家前期进行充分的测试和探索了，可以说门槛设置得非常友好。

最后，附上模型的开源地址，方便喜欢钻研技术细节的朋友们去一探究竟：

https://github.com/meituan-longcat/SGLang-FluentLLM

美团发布 LongCat-Flash-Lite 轻量化 MoE 模型，智能体与代码表现突出

美团发布LongCat-Flash-Lite：一款“聪明又省钱”的轻量化MoE大模型

相关阅读

最新教程

最新资讯