美团发布 LongCat-Flash-Lite 轻量化 MoE 模型,智能体与代码表现突出
美团发布LongCat-Flash-Lite:一款“聪明又省钱”的轻量化MoE大模型
大家好,今天(2月6日)科技圈有个挺有意思的新动向——美团正式发布了他们最新的大模型,叫做LongCat-Flash-Lite。说实话,光看这个名字就挺有辨识度的。这可不是个普通的模型,它是一个采用了MoE(混合专家)架构的大家伙,总参数量高达685亿。但重点来了,它每次推理时,真正动用的“脑细胞”只有29亿到45亿左右。这意味着什么?简单来说,就是它用了一种非常巧妙的结构,既保有了庞大的知识储备,又能在实际干活时保持极高的效率,颇有点“养兵千日,用兵一时”的智慧。
那么,它具体是怎么做到的呢?根据官方披露,模型里有超过300亿的参数都被用在了嵌入层上。这个设计非常关键,在我看来,它就像是为模型构建了一个异常丰富和细腻的“词汇理解与联想网络”。正是得益于这种独特结构,LongCat-Flash-Lite在性能上不仅超越了同参数级别的MoE基线模型,而且在跟市面上现有同规模模型的对比中,也展现出了相当不俗的竞争力。特别值得一提的是,它在智能体和代码生成这两个专业领域表现尤其突出,这对于开发者来说,无疑是个值得关注的好消息。
另外,模型还依托了YARN技术,可以支持长达256K的上下文长度。这在实际应用中意味着什么呢?我举个简单的例子,像处理超长的技术文档、进行大规模的代码库分析这类对“记忆力”要求极高的任务,对它来说就能更高效地搞定,避免了那种“看到后面忘了前面”的尴尬。
当然,光有“聪明的大脑”还不够,推理速度同样是硬指标。LongCat-Flash-Lite在嵌入扩展和系统级优化上下了不少功夫,这让它的推理效率得到了大幅提升。根据官方数据,在输入4K、输出1K的典型工作负载下,通过LongCat API,它能实现每秒生成500到700个token的速度。这个速度是什么概念呢?大致上,它能让交互反馈变得非常流畅,等待感会明显降低。
最让人心动的是,美团这次是带着诚意来的。他们宣布向广大开发者开放LongCat-Flash-Lite版本的API接口。如果你感兴趣,可以直接登录LongCat API开放平台去申请。而且,平台还提供了每日5000万token的免费额度,这足够大家前期进行充分的测试和探索了,可以说门槛设置得非常友好。
最后,附上模型的开源地址,方便喜欢钻研技术细节的朋友们去一探究竟:
https://github.com/meituan-longcat/SGLang-FluentLLM

