美团LongCat:美团全新推理大模型

2026-05-01阅读 0热度 0
美团LongCat
美团LongCat:美团全新推理大模型

美团LongCat-Flash-Thinking是什么?

聊起最近开源社区的重磅新品,美团LongCat-Flash-Thinkin(简称LFT)绝对是一个绕不开的名字。这款由美团LongCat团队推出的混合专家架构大模型,可不是一个简单的参数巨兽。它凭借创新的MoE架构与动态计算机制,在逻辑推理、数学乃至代码生成这些硬核任务上,都拿出了全球领先级别的性能表现。更关键的是,它一举成为开源世界里首个将“深度思考+工具调用”与“非形式化+形式化”推理能力融于一体的里程碑式模型,标志着推理大模型进入了一个全新阶段。

模型参数:

LFT的核心骨架是MoE,总参数量达到了惊人的5600亿。但先别急着被这数字吓到,它真正的巧妙之处在于那套上下文感知动态计算机制。简单来说,模型在处理任务时,并不会“蛮力”动用所有神经元,而是智能地根据当前输入,仅激活186亿到313亿参数(平均约270亿)来“解题”。这相当于激活率仅仅4.8%,直接打破了传统大模型“参数量涨、计算成本必然飙升”的魔咒,实实在在地实现了“更智能、更经济”的目标。效果如何呢?几个数据很能说明问题:在AIME25数学测试中,LFT利用原生工具调用功能,能在保持顶级准确率的同时,将Token消耗大幅砍掉64.5%;而在LiveCodeBench编程测试中,其性能与闭源标杆GPT-5持平,推理速度却能提升足足3倍。这效率,确实有点东西。

核心特点:

1. 动态计算与零计算专家(Zero-computation Experts)

这一特性是LFT高效能的基石。首先,它通过快捷连接MoE(ScMoE)架构,将计算与通信的重叠窗口扩大了3倍,这让推理吞吐量得到了显著提升。更有意思的是“零计算专家”机制——模型能像经验丰富的老编辑一样,智能识别并跳过那些不影响语义的非关键输入,比如某些标点、停用词,然后直接返回原文。可别小看这个动作,在处理海量长文本时,它能有效降低高达30%的推理延迟,把计算资源用在真正的刀刃上。

2. 双路径推理框架

这才是LFT被称为“里程碑”的硬核所在。它支持将“深度思考+工具调用”与“非形式化+形式化”推理这两条路径相结合。这意味着,模型不仅能像人类一样进行深度的、非结构化的思考,还能在需要时,严谨地调用外部工具(比如计算器、数据库、API接口),并执行形式化的逻辑推演。这使得它成为国内开源模型中首个具备如此全面推理能力的选手。在考验智能体能力的τ²-Bench基准测试中,LFT一举拿下74.0分,刷新了开源模型的最高纪录,充分证明了其在复杂任务编排上的实力。

3. 课程学习与多阶段训练

优秀的模型离不开精心设计的训练过程。LFT采用了类似人类学习的“课程学习”策略:预训练阶段先打好通用知识的基础;随后进入关键的中期训练(Mid-training),专门强化逻辑推理这类高阶能力;最后再通过有监督微调(SFT)来优化指令遵循与安全性。整个训练数据包罗万象,覆盖了数学、物理、化学及编程等多个高难度领域,确保了模型在实现专项能力突破的同时,不会丢失作为通用大模型的“基本功”。

模型性能:

1. 数学推理:接近满分水平

在数学领域,LFT的表现可以用“强悍”来形容。MATH-500测试得分99.2%,几乎触及理论极限。AIME25测试中,它在保证90%超高准确率的同时,凭借工具调用将Token消耗降低了64.5%,效率优势一目了然。而在HMMT与AIME相关基准上,它的成绩已经超越OpenAI o3,与Qwen3-235B-A22B-Thinking等顶尖模型站在了同一梯队。

2. 代码生成:紧追GPT-5

编程能力是检验模型实用性的试金石。在LiveCodeBench编程测试中,LFT拿到79.4分,不仅显著甩开其他开源模型,更是直接追平了闭源的GPT-5。OJBench基准测试40.7的得分,也让它接近了Gemini2.5-Pro的水准,证明其完全有能力应对高难度的编程竞赛问题。

3. 通用推理:超越闭源模型

在更考验综合智能的通用推理赛道上,LFT同样不落下风。ARC-AGI基准测试50.3分的成绩,让它成功超越了OpenAI o3、Gemini2.5 Pro等一众闭源巨头。而在ZebraLogic解谜任务中95.5%的得分,更是淋漓尽致地展现了其强大的结构化推理能力。

4. 形式化定理证明:绝对领先

这是LFT建立明显优势的领域。在MiniF2F-test定理证明基准上,其pass@1命中率高达67.6%,比第二名足足高出18个百分点。在pass@8和pass@32的测试中同样保持领先。这组数据充分凸显了LFT在生成结构化数学证明和进行严格形式化推理方面的绝对实力。

技术优势:

1. 高效训练与推理

背后是扎实的工程优化。在数万张加速卡的集群上,LFT的强化学习训练速度达到了传统同步方式的3倍以上,而FLOPs投入却仅为预训练阶段的20%。这得益于其对PPO算法的改良——引入了截断重要性采样与裁剪机制,有效解决了异步训练中常见的数值差异问题,让整个训练过程更稳定、更高效。

2. 安全性与指令遵循

对于要走向实际应用的模型,安全是生命线。LFT在有害内容、犯罪诱导、虚假信息及隐私泄露这四类核心风险测试中,均拿下了最高安全评分。为实现这一点,团队不仅训练了基于人机联合标注数据的判别式奖励模型,还专门构建了生成式奖励模型,使得模型在数学、编程等任务中给出的反馈也能做到“有理有据”,可靠性大大提升。

应用场景:

1. 智能体开发

LFT强大的工具调用与任务编排能力,让它成为开发高级智能体的理想“大脑”。无论是自动化客服、复杂的业务流程编排,还是需要实时判断的决策场景,它都能胜任。在美团的本地生活业务中,这套能力可以直接用于优化配送路径、高效处理海量商户信息、甚至管理动态库存,想象空间巨大。

2. 科研与教育

对于科研人员和教育工作者来说,LFT是一个得力的专业助手。在数学、物理、化学等需要严密逻辑的领域,它可以辅助研究人员快速验证想法、生成定理证明草图;也可以为学生提供一步步的、个性化的解题辅导,成为永不疲倦的“超级导师”。

2. 金融与医疗

在这些对准确性与可靠性要求极高的行业,LFT的“形式化推理”能力找到了用武之地。它可以应用于金融领域的风险评估模型审核、复杂合同条款的审查,也能辅助医疗领域进行诊断推理和文献分析,提升关键决策的精确度与可解释性。

开源生态:

1. 全面开源策略

美团这次拿出了十足的诚意。LFT的模型权重与完整代码均已通过宽松的MIT许可证开源,允许自由修改、分发甚至商用。官方同步在HuggingFace、GitHub等主流平台提供了支持,并上线了专属的体验网站(https://longcat.chat/),极大地降低了开发者的尝鲜和使用门槛。

2. 开发者友好设计

为了让开发者能迅速上手,团队提供了详细的聊天模板、部署指南,以及一个功能强大的分布式沙箱系统——支持超过20种编程语言和数百万次的并发代码执行,方便进行大规模的集成测试与效果评估。

3. 生态共建目标

开源绝非终点,而是生态的起点。美团显然希望通过此举,吸引全球的开发者与研究者共同参与,探索AI搜索、面向消费者的智能体产品等更多创新应用场景。这种开放共赢的策略,最终也将反哺其自身业务,形成良性的创新循环。

行业意义:

1. 技术自信的展示

LFT的成功开源,无疑是美团在AI前沿技术领域一次强有力的“秀肌肉”。它证明了团队在MoE架构、动态计算及智能体推理等核心方向上的技术领导力,这种技术品牌的建立,对于吸引全球顶尖人才至关重要。

2. 推动“混合推理”趋势

纵观行业,无论是OpenAI GPT-5的“路由器”机制,还是DeepSeek V3.1的“双模架构”,都指向同一个方向:让模型学会根据任务动态分配计算资源。LFT的“自适应计算”设计,正是这一前沿趋势的典型代表,为下一代大模型的演进提供了重要的开源范本。

3. 破解商业化难题

说到底,再强大的模型如果不能控制成本,也难以走向大规模应用。LFT通过动态计算等技术,实打实地降低了推理成本(如AIME25测试中Token消耗锐减64.5%),这为将顶级推理大模型部署到真实、复杂的商业场景中扫清了一个关键障碍,加速了AI从技术展示到价值创造的进程。

对LFT感兴趣的朋友,可以通过美团LongCat官网入口进一步探索:https://longcat.chat/

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策