美团LongCat：美团全新推理大模型

2026-05-01阅读 0热度 0

美团LongCat

美团LongCat-Flash-Thinking是什么？

聊起最近开源社区的重磅新品，美团LongCat-Flash-Thinkin（简称LFT）绝对是一个绕不开的名字。这款由美团LongCat团队推出的混合专家架构大模型，可不是一个简单的参数巨兽。它凭借创新的MoE架构与动态计算机制，在逻辑推理、数学乃至代码生成这些硬核任务上，都拿出了全球领先级别的性能表现。更关键的是，它一举成为开源世界里首个将“深度思考+工具调用”与“非形式化+形式化”推理能力融于一体的里程碑式模型，标志着推理大模型进入了一个全新阶段。

模型参数：

LFT的核心骨架是MoE，总参数量达到了惊人的5600亿。但先别急着被这数字吓到，它真正的巧妙之处在于那套上下文感知动态计算机制。简单来说，模型在处理任务时，并不会“蛮力”动用所有神经元，而是智能地根据当前输入，仅激活186亿到313亿参数（平均约270亿）来“解题”。这相当于激活率仅仅4.8%，直接打破了传统大模型“参数量涨、计算成本必然飙升”的魔咒，实实在在地实现了“更智能、更经济”的目标。效果如何呢？几个数据很能说明问题：在AIME25数学测试中，LFT利用原生工具调用功能，能在保持顶级准确率的同时，将Token消耗大幅砍掉64.5%；而在LiveCodeBench编程测试中，其性能与闭源标杆GPT-5持平，推理速度却能提升足足3倍。这效率，确实有点东西。

核心特点：

1. 动态计算与零计算专家（Zero-computation Experts）

这一特性是LFT高效能的基石。首先，它通过快捷连接MoE（ScMoE）架构，将计算与通信的重叠窗口扩大了3倍，这让推理吞吐量得到了显著提升。更有意思的是“零计算专家”机制——模型能像经验丰富的老编辑一样，智能识别并跳过那些不影响语义的非关键输入，比如某些标点、停用词，然后直接返回原文。可别小看这个动作，在处理海量长文本时，它能有效降低高达30%的推理延迟，把计算资源用在真正的刀刃上。

2. 双路径推理框架

这才是LFT被称为“里程碑”的硬核所在。它支持将“深度思考+工具调用”与“非形式化+形式化”推理这两条路径相结合。这意味着，模型不仅能像人类一样进行深度的、非结构化的思考，还能在需要时，严谨地调用外部工具（比如计算器、数据库、API接口），并执行形式化的逻辑推演。这使得它成为国内开源模型中首个具备如此全面推理能力的选手。在考验智能体能力的τ²-Bench基准测试中，LFT一举拿下74.0分，刷新了开源模型的最高纪录，充分证明了其在复杂任务编排上的实力。

3. 课程学习与多阶段训练

优秀的模型离不开精心设计的训练过程。LFT采用了类似人类学习的“课程学习”策略：预训练阶段先打好通用知识的基础；随后进入关键的中期训练（Mid-training），专门强化逻辑推理这类高阶能力；最后再通过有监督微调（SFT）来优化指令遵循与安全性。整个训练数据包罗万象，覆盖了数学、物理、化学及编程等多个高难度领域，确保了模型在实现专项能力突破的同时，不会丢失作为通用大模型的“基本功”。

模型性能：

1. 数学推理：接近满分水平

在数学领域，LFT的表现可以用“强悍”来形容。MATH-500测试得分99.2%，几乎触及理论极限。AIME25测试中，它在保证90%超高准确率的同时，凭借工具调用将Token消耗降低了64.5%，效率优势一目了然。而在HMMT与AIME相关基准上，它的成绩已经超越OpenAI o3，与Qwen3-235B-A22B-Thinking等顶尖模型站在了同一梯队。

2. 代码生成：紧追GPT-5

编程能力是检验模型实用性的试金石。在LiveCodeBench编程测试中，LFT拿到79.4分，不仅显著甩开其他开源模型，更是直接追平了闭源的GPT-5。OJBench基准测试40.7的得分，也让它接近了Gemini2.5-Pro的水准，证明其完全有能力应对高难度的编程竞赛问题。

3. 通用推理：超越闭源模型

在更考验综合智能的通用推理赛道上，LFT同样不落下风。ARC-AGI基准测试50.3分的成绩，让它成功超越了OpenAI o3、Gemini2.5 Pro等一众闭源巨头。而在ZebraLogic解谜任务中95.5%的得分，更是淋漓尽致地展现了其强大的结构化推理能力。

4. 形式化定理证明：绝对领先

这是LFT建立明显优势的领域。在MiniF2F-test定理证明基准上，其pass@1命中率高达67.6%，比第二名足足高出18个百分点。在pass@8和pass@32的测试中同样保持领先。这组数据充分凸显了LFT在生成结构化数学证明和进行严格形式化推理方面的绝对实力。

技术优势：

1. 高效训练与推理

背后是扎实的工程优化。在数万张加速卡的集群上，LFT的强化学习训练速度达到了传统同步方式的3倍以上，而FLOPs投入却仅为预训练阶段的20%。这得益于其对PPO算法的改良——引入了截断重要性采样与裁剪机制，有效解决了异步训练中常见的数值差异问题，让整个训练过程更稳定、更高效。

2. 安全性与指令遵循

对于要走向实际应用的模型，安全是生命线。LFT在有害内容、犯罪诱导、虚假信息及隐私泄露这四类核心风险测试中，均拿下了最高安全评分。为实现这一点，团队不仅训练了基于人机联合标注数据的判别式奖励模型，还专门构建了生成式奖励模型，使得模型在数学、编程等任务中给出的反馈也能做到“有理有据”，可靠性大大提升。

应用场景：

1. 智能体开发

LFT强大的工具调用与任务编排能力，让它成为开发高级智能体的理想“大脑”。无论是自动化客服、复杂的业务流程编排，还是需要实时判断的决策场景，它都能胜任。在美团的本地生活业务中，这套能力可以直接用于优化配送路径、高效处理海量商户信息、甚至管理动态库存，想象空间巨大。

2. 科研与教育

对于科研人员和教育工作者来说，LFT是一个得力的专业助手。在数学、物理、化学等需要严密逻辑的领域，它可以辅助研究人员快速验证想法、生成定理证明草图；也可以为学生提供一步步的、个性化的解题辅导，成为永不疲倦的“超级导师”。

2. 金融与医疗

在这些对准确性与可靠性要求极高的行业，LFT的“形式化推理”能力找到了用武之地。它可以应用于金融领域的风险评估模型审核、复杂合同条款的审查，也能辅助医疗领域进行诊断推理和文献分析，提升关键决策的精确度与可解释性。

开源生态：

1. 全面开源策略

美团这次拿出了十足的诚意。LFT的模型权重与完整代码均已通过宽松的MIT许可证开源，允许自由修改、分发甚至商用。官方同步在HuggingFace、GitHub等主流平台提供了支持，并上线了专属的体验网站（https://longcat.chat/），极大地降低了开发者的尝鲜和使用门槛。

2. 开发者友好设计

为了让开发者能迅速上手，团队提供了详细的聊天模板、部署指南，以及一个功能强大的分布式沙箱系统——支持超过20种编程语言和数百万次的并发代码执行，方便进行大规模的集成测试与效果评估。

3. 生态共建目标

开源绝非终点，而是生态的起点。美团显然希望通过此举，吸引全球的开发者与研究者共同参与，探索AI搜索、面向消费者的智能体产品等更多创新应用场景。这种开放共赢的策略，最终也将反哺其自身业务，形成良性的创新循环。

行业意义：

1. 技术自信的展示

LFT的成功开源，无疑是美团在AI前沿技术领域一次强有力的“秀肌肉”。它证明了团队在MoE架构、动态计算及智能体推理等核心方向上的技术领导力，这种技术品牌的建立，对于吸引全球顶尖人才至关重要。

2. 推动“混合推理”趋势

纵观行业，无论是OpenAI GPT-5的“路由器”机制，还是DeepSeek V3.1的“双模架构”，都指向同一个方向：让模型学会根据任务动态分配计算资源。LFT的“自适应计算”设计，正是这一前沿趋势的典型代表，为下一代大模型的演进提供了重要的开源范本。

3. 破解商业化难题

说到底，再强大的模型如果不能控制成本，也难以走向大规模应用。LFT通过动态计算等技术，实打实地降低了推理成本（如AIME25测试中Token消耗锐减64.5%），这为将顶级推理大模型部署到真实、复杂的商业场景中扫清了一个关键障碍，加速了AI从技术展示到价值创造的进程。

对LFT感兴趣的朋友，可以通过美团LongCat官网入口进一步探索：https://longcat.chat/