Ling-2.6-flash 测评：更高效率与更强执行力的全面解析

2026-05-14阅读 0热度 0

其他

智能体（Agent）能力的成熟带来了一个核心挑战：Token消耗的急剧增长。这已成为大模型规模化部署时必须直面的成本与效率瓶颈。

相比传统对话，Agent任务处理的输入长度往往高出两个数量级。频繁的工具调用、复杂的多步规划与长程执行链条，更是显著延长了模型的输出序列。其结果不仅是更高的推理算力需求，也直接转化为更昂贵的用户使用成本。

当前，主流模型普遍采用“长思考”策略，以更长的推理过程换取评测分数。这引发了一个关键问题：对于日常高频的Agent应用，如此巨量的Token消耗是否总是必要？

正是为了应对这一痛点，我们推出 Ling-2.6-flash。这款总参数量104B、激活参数7.4B的指令模型，选择了一条差异化路径：它不再单纯追求更长的输出来提升分数，而是系统性地优化推理效率、Token效率与Agent场景性能。其目标是在维持高智能水平的同时，实现更快的响应、更低的消耗，并深度适配真实业务需求。

Ling-2.6-flash 的核心能力

Ling-2.6-flash 的核心优势聚焦于三个关键维度：

混合线性架构，释放推理效率： 模型采用混合线性注意力架构，从底层优化计算效能。在4卡H20环境下，其推理速度最高可达340 tokens/s，Prefill吞吐达到Nemotron-3-Super的2.2倍，实现了卓越的推理费效比。
Token效率优化，提升智效比： 我们在训练阶段对Token效率进行了针对性校准，力求以更精简的输出达成任务目标。在Artificial Analysis完整评测中，Ling-2.6-flash仅消耗约15M tokens，约为Nemotron-3-Super等同类模型的1/10，展现出显著的“智效比”优势。
面向Agent场景进行定向增强： 针对高需求的Agent应用，我们深度打磨了模型的工具调用、多步规划与任务执行能力。这使得其在BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench等权威评测中，即使面对激活参数更大的竞品，仍能取得对标甚至领先的表现。

这意味着Ling-2.6-flash的核心追求，是在严格管控Token消耗的前提下，保持对复杂Agent任务的强大竞争力。对于开发者与企业，这直接转化为更低的推理成本、更高的部署效率，以及更契合大规模生产环境的模型体验。

Ling-2.6-flash 发布：更快响应、更强执行、更高 Token Efficiency

Ling-2.6-flash 在Agent相关基准上达到同尺寸SOTA水平，并在其他核心能力上保持出色表现。

混合线性架构，释放推理效率

架构改进

Ling-2.6-flash 延续了Ling 2.5的架构设计，在Ling 2.0基础上引入了混合线性注意力机制。通过增量训练，成功将原有的GQA注意力机制升级为1:7的MLA + Lightning Linear高效混合架构。

得益于混合注意力机制与高度稀疏化的MoE架构，Ling-2.6-flash在推理效率上优势明显。与同尺寸的主流SOTA模型相比，它不仅首字响应更快，在长文本生成场景下的效率也更高，Prefill吞吐与Decode吞吐最高均可实现约4倍的提升。

下方对比图清晰显示，随着上下文长度和生成长度的增加，Ling-2.6-flash的吞吐优势进一步放大。更重要的是，这一优势不仅体现在基准测试中，在真实部署环境下，随着任务复杂度提升，它能持续带来更强的速度收益。无论是长上下文理解还是连续文本生成，Ling-2.6-flash都能在保障能力的同时，提供更快的响应、更高的吞吐与更优的实际部署效率。

输出（Decode）吞吐优势对比，四卡H20-3e，TP=4，Batch Size = 32

输入（Prefill）吞吐优势对比，四卡H20-3e，TP=4，Batch Size = 32

推理效率优化

在Ling-2.6-flash的预训练阶段，我们通过大规模算子融合显著提升了训练效率。在推理侧，则围绕真实部署场景进行了深度适配，确保融合算子在融合粒度、实现路径与数值行为上与训练侧高度一致。这一设计不仅带来了更高的推理效率，也在RL Rollout阶段进一步强化了训推一致性。相关推理优化算子将随linghe陆续开源。

针对不同计算精度场景，我们系统优化了推理链路：

针对BF16推理，我们实现了QK Norm + RoPE、Group RMSNorm + Sigmoid Gate等关键算子的深度融合，并在MoE Router GEMM与LM Head GEMM中采用BF16 Input + FP32 Output计算方式，同时优化了MLA RoPE与Top-K的实现。
针对FP8推理，我们进一步将RMSNorm、SwiGLU与量化算子融合，并针对小Batch Size场景引入Split-K的Blockwise FP8 GEMM，以充分释放吞吐潜力。

这是一套从算子融合、缓存机制到多token生成的系统级协同优化方案。最终成果不仅是更高的系统吞吐，也包括更高的单用户TPS、更短的等待延迟，以及在真实交互中更稳定流畅的体验。

在Artificial Analysis榜单Output Speed维度的官方测评中，对比同参数量级别的主流模型，Ling-2.6-flash以215 tokens/s的输出速度稳居第一梯队，展现了领先的生成效率。

Token 效率优化，提升智效比

在Artificial Analysis的Intelligence vs. Output Tokens对比中，Ling-2.6-flash展现出突出的token efficiency优势。

下图显示，Ling-2.6-flash仅用15M output tokens就实现了26分的Intelligence Index。它在保持强劲智能水平的同时，将输出消耗控制在更低水平。与依赖冗长文本来换取高分的模型相比，Ling-2.6-flash在“智能表现”与“输出成本”间找到了更优平衡。这意味着其竞争力不仅在于单点能力，更在于面向真实应用的整体效率优化。它通过精炼的生成完成任务，在保证竞争力的同时，显著降低了Token消耗。

对开发者和企业级应用而言，这种能力的价值直接而明确：更低的推理开销、更快的首字响应、更短的整体生成时延，以及更流畅的交互体验。无论是Agent调用、复杂任务执行还是高频线上服务，Ling-2.6-flash都更贴合真实部署对速度、成本与体验的综合要求。

换言之，Ling-2.6-flash追求的并非单纯的“更强”，而是在“足够强”的基础上，进一步实现“更快、更省、更可落地”。

基于 AA 榜单的官方测评分数绘制

从 Token 消耗看，Ling-2.6-flash 的智效比显著提升。

在Artificial Analysis Intelligence Index的完整评测中，Ling-2.6-flash展现出显著更优的Token效率：其总消耗仅为15M tokens，而Nemotron-3-Super等模型的消耗达到或超过了110M tokens。也就是说，Ling-2.6-flash仅用约1/10的token消耗就完成了同类评测任务，体现了更精简的输出方式和更高的智效比。

面向 Agent 场景进行定向增强

智能体优化

为增强模型的Agent能力，我们显著扩展了Ling-2.6-flash训练数据的难度与广度，以优化其在复杂长程任务中的表现。依托自研的大规模高保真交互环境，我们对模型进行了针对性的General Agent与Coding Agent强化学习训练。

显著提升了模型在指令遵循、工具调用、多步规划及长程执行方面的能力，确保模型能准确理解并执行指令。Ling-2.6-flash在BFCL-V4、TAU2-bench、SWE-bench Verified、PinchBench等代表性榜单上表现优异。
通过RL优化模型在不同Agent场景下的泛化性与稳定性，大幅改进了其在实际应用中的体验。Ling-2.6-flash在Claude Code、Kilo Code、Qwen Code、Hermes Agent、OpenClaw等主流框架中均展现了良好的兼容性和使用体验。

同时，Ling-2.6-flash在通用知识、数学推理、指令遵循及长文本解析等维度保持了优秀水准，各项指标均对齐同尺寸SOTA模型，保障了全场景下稳健、优质的性能产出。

PinchBench： 对比分数引自PinchBench官方榜单（截至2026年4月20日），直接取用官方评测设置下的分数（可能包含Reasoning Mode）。
Claw-Eval： 对比分数引自Claw-Eval官方榜单（2026年3月25日版本），直接取用官方评测设置下的分数（可能包含Reasoning Mode）。其中，GPT-OSS-120B与GPT-5.4-mini在Claw-Eval官方榜单暂未公布，因此未纳入对比。
TAU2-Bench： 评测基于官方v1.0.0代码与数据集进行。参考GLM-5的评测配置，我们在Retail和Telecom领域对用户Prompt进行了微调，以确保用户请求表达更加清晰，并避免会话被过早终止。此外，所有领域均采用GPT-5.2作为User Agent。
IFBench： GPT-OSS-120B（low）和GPT-5.4-mini（Non-Reasoning）的分数引自AA榜单；其余模型的结果来自内部评测。

实战演示：Ling-2.6-flash 的即时执行能力

代码场景

1. 网页生成

Ling-2.6-flash兼具高审美表达与高速代码生成能力，能够准确理解并调用前端组件与图标库，尤其适合单页面演示和原型制作中的快速验证。

2. INT4 的量化版本在 DGX Spark 上运行

基于Ling-2.6-flash与DGX Spark，可以构建业界领先的Hermes一体机教程。

3. 结合 Kilo Code 生成风格化网页

在Kilo Code中，Ling-2.6-flash不只是一个代码生成器，更能将视觉指令快速转化为高质量界面。结合Kilo Code的工程底座，它能够胜任个性化视觉风格生成、报刊级排版，以及周刊、报告等办公内容的即时生成，实现兼顾速度与设计质感的“输入即成品”。

文本场景

1. Prompt 驱动的工作流执行

仅凭Prompt，Ling-2.6-flash即可胜任多步骤文本任务执行，在指令遵循、文风调整与实时生成方面表现突出，生成内容自然流畅。

Agent 工具调用场景

1. 红楼梦人物及事件图谱提取

Ling-2.6-flash具备强大的上下文检索、工具调用与高速响应能力，非常适合复杂信息处理与知识增强场景。

2. autonovel 长篇小说写作

autonovel是一款长篇小说写作助手，可覆盖世界观设定、角色构建、大纲生成到正文创作的全流程。基于Ling-2.6-flash，autonovel进一步提升了长篇创作的生成效率、上下文一致性与剧情推演能力，在超长文本生成、伏笔衔接和内容精修等环节表现突出。通过200+ tokens/s的极速生成，仅需几十分钟即可产出百万字级别的长稿作品。

3. 需求整理和排期

Ling-2.6-flash为真实工作场景而设计，能够在信息检索、任务拆解、内容处理与工具协同等流程中稳定参与实际执行。凭借较低的幻觉率与较高的结果可用性，它不仅能回答问题，更能真正承担任务、推进流程，是一款“能干活”的实用型模型。

局限性与未来计划

Ling-2.6-flash在极致智效比上的探索，已取得阶段性进展。在工具调用、多步规划与长程任务执行等关键维度上，模型能力均实现了明显提升。结合推理效率与交互体验上的系统性优化，Ling-2.6-flash已能够更从容地应对大规模、高频次的自动化执行任务，在真实应用场景中展现出更强的落地价值。

与此同时，我们也清醒认识到，对极致智效比的追求并非没有代价。在部分高复杂度场景中，受限于推理深度，模型仍可能出现一定的工具幻觉；此外，在中英双语自然切换、复杂指令遵循等方面，Ling-2.6-flash仍有进一步的优化空间。

面向后续迭代，我们将继续探索智效比的更优边界，在保持高效推理特性的同时，进一步推动智能产出质量与Token效率之间的深度平衡，持续提升模型在全场景下的稳定性、可用性与交互体验。