Ling-2.6-flash 测评:更高效率与更强执行力的全面解析
智能体(Agent)能力的成熟带来了一个核心挑战:Token消耗的急剧增长。这已成为大模型规模化部署时必须直面的成本与效率瓶颈。
相比传统对话,Agent任务处理的输入长度往往高出两个数量级。频繁的工具调用、复杂的多步规划与长程执行链条,更是显著延长了模型的输出序列。其结果不仅是更高的推理算力需求,也直接转化为更昂贵的用户使用成本。
当前,主流模型普遍采用“长思考”策略,以更长的推理过程换取评测分数。这引发了一个关键问题:对于日常高频的Agent应用,如此巨量的Token消耗是否总是必要?
正是为了应对这一痛点,我们推出 Ling-2.6-flash。这款总参数量104B、激活参数7.4B的指令模型,选择了一条差异化路径:它不再单纯追求更长的输出来提升分数,而是系统性地优化推理效率、Token效率与Agent场景性能。其目标是在维持高智能水平的同时,实现更快的响应、更低的消耗,并深度适配真实业务需求。
Ling-2.6-flash 的核心能力
Ling-2.6-flash 的核心优势聚焦于三个关键维度:
- 混合线性架构,释放推理效率: 模型采用混合线性注意力架构,从底层优化计算效能。在4卡H20环境下,其推理速度最高可达340 tokens/s,Prefill吞吐达到Nemotron-3-Super的2.2倍,实现了卓越的推理费效比。
- Token效率优化,提升智效比: 我们在训练阶段对Token效率进行了针对性校准,力求以更精简的输出达成任务目标。在Artificial Analysis完整评测中,Ling-2.6-flash仅消耗约15M tokens,约为Nemotron-3-Super等同类模型的1/10,展现出显著的“智效比”优势。
- 面向Agent场景进行定向增强: 针对高需求的Agent应用,我们深度打磨了模型的工具调用、多步规划与任务执行能力。这使得其在BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench等权威评测中,即使面对激活参数更大的竞品,仍能取得对标甚至领先的表现。
这意味着Ling-2.6-flash的核心追求,是在严格管控Token消耗的前提下,保持对复杂Agent任务的强大竞争力。对于开发者与企业,这直接转化为更低的推理成本、更高的部署效率,以及更契合大规模生产环境的模型体验。
Ling-2.6-flash 在Agent相关基准上达到同尺寸SOTA水平,并在其他核心能力上保持出色表现。
混合线性架构,释放推理效率
架构改进
Ling-2.6-flash 延续了Ling 2.5的架构设计,在Ling 2.0基础上引入了混合线性注意力机制。通过增量训练,成功将原有的GQA注意力机制升级为1:7的MLA + Lightning Linear高效混合架构。
得益于混合注意力机制与高度稀疏化的MoE架构,Ling-2.6-flash在推理效率上优势明显。与同尺寸的主流SOTA模型相比,它不仅首字响应更快,在长文本生成场景下的效率也更高,Prefill吞吐与Decode吞吐最高均可实现约4倍的提升。
下方对比图清晰显示,随着上下文长度和生成长度的增加,Ling-2.6-flash的吞吐优势进一步放大。更重要的是,这一优势不仅体现在基准测试中,在真实部署环境下,随着任务复杂度提升,它能持续带来更强的速度收益。无论是长上下文理解还是连续文本生成,Ling-2.6-flash都能在保障能力的同时,提供更快的响应、更高的吞吐与更优的实际部署效率。
输出(Decode)吞吐优势对比,四卡H20-3e,TP=4,Batch Size = 32
输入(Prefill)吞吐优势对比,四卡H20-3e,TP=4,Batch Size = 32
推理效率优化
在Ling-2.6-flash的预训练阶段,我们通过大规模算子融合显著提升了训练效率。在推理侧,则围绕真实部署场景进行了深度适配,确保融合算子在融合粒度、实现路径与数值行为上与训练侧高度一致。这一设计不仅带来了更高的推理效率,也在RL Rollout阶段进一步强化了训推一致性。相关推理优化算子将随linghe陆续开源。
针对不同计算精度场景,我们系统优化了推理链路:
- 针对BF16推理,我们实现了QK Norm + RoPE、Group RMSNorm + Sigmoid Gate等关键算子的深度融合,并在MoE Router GEMM与LM Head GEMM中采用BF16 Input + FP32 Output计算方式,同时优化了MLA RoPE与Top-K的实现。
- 针对FP8推理,我们进一步将RMSNorm、SwiGLU与量化算子融合,并针对小Batch Size场景引入Split-K的Blockwise FP8 GEMM,以充分释放吞吐潜力。
这是一套从算子融合、缓存机制到多token生成的系统级协同优化方案。最终成果不仅是更高的系统吞吐,也包括更高的单用户TPS、更短的等待延迟,以及在真实交互中更稳定流畅的体验。
在Artificial Analysis榜单Output Speed维度的官方测评中,对比同参数量级别的主流模型,Ling-2.6-flash以215 tokens/s的输出速度稳居第一梯队,展现了领先的生成效率。
Token 效率优化,提升智效比
在Artificial Analysis的Intelligence vs. Output Tokens对比中,Ling-2.6-flash展现出突出的token efficiency优势。
下图显示,Ling-2.6-flash仅用15M output tokens就实现了26分的Intelligence Index。它在保持强劲智能水平的同时,将输出消耗控制在更低水平。与依赖冗长文本来换取高分的模型相比,Ling-2.6-flash在“智能表现”与“输出成本”间找到了更优平衡。这意味着其竞争力不仅在于单点能力,更在于面向真实应用的整体效率优化。它通过精炼的生成完成任务,在保证竞争力的同时,显著降低了Token消耗。
对开发者和企业级应用而言,这种能力的价值直接而明确:更低的推理开销、更快的首字响应、更短的整体生成时延,以及更流畅的交互体验。无论是Agent调用、复杂任务执行还是高频线上服务,Ling-2.6-flash都更贴合真实部署对速度、成本与体验的综合要求。
换言之,Ling-2.6-flash追求的并非单纯的“更强”,而是在“足够强”的基础上,进一步实现“更快、更省、更可落地”。
基于 AA 榜单的官方测评分数绘制
从 Token 消耗看,Ling-2.6-flash 的智效比显著提升。
在Artificial Analysis Intelligence Index的完整评测中,Ling-2.6-flash展现出显著更优的Token效率:其总消耗仅为15M tokens,而Nemotron-3-Super等模型的消耗达到或超过了110M tokens。也就是说,Ling-2.6-flash仅用约1/10的token消耗就完成了同类评测任务,体现了更精简的输出方式和更高的智效比。
面向 Agent 场景进行定向增强
智能体优化
为增强模型的Agent能力,我们显著扩展了Ling-2.6-flash训练数据的难度与广度,以优化其在复杂长程任务中的表现。依托自研的大规模高保真交互环境,我们对模型进行了针对性的General Agent与Coding Agent强化学习训练。
- 显著提升了模型在指令遵循、工具调用、多步规划及长程执行方面的能力,确保模型能准确理解并执行指令。Ling-2.6-flash在BFCL-V4、TAU2-bench、SWE-bench Verified、PinchBench等代表性榜单上表现优异。
- 通过RL优化模型在不同Agent场景下的泛化性与稳定性,大幅改进了其在实际应用中的体验。Ling-2.6-flash在Claude Code、Kilo Code、Qwen Code、Hermes Agent、OpenClaw等主流框架中均展现了良好的兼容性和使用体验。
同时,Ling-2.6-flash在通用知识、数学推理、指令遵循及长文本解析等维度保持了优秀水准,各项指标均对齐同尺寸SOTA模型,保障了全场景下稳健、优质的性能产出。
- PinchBench: 对比分数引自PinchBench官方榜单(截至2026年4月20日),直接取用官方评测设置下的分数(可能包含Reasoning Mode)。
- Claw-Eval: 对比分数引自Claw-Eval官方榜单(2026年3月25日版本),直接取用官方评测设置下的分数(可能包含Reasoning Mode)。其中,GPT-OSS-120B与GPT-5.4-mini在Claw-Eval官方榜单暂未公布,因此未纳入对比。
- TAU2-Bench: 评测基于官方v1.0.0代码与数据集进行。参考GLM-5的评测配置,我们在Retail和Telecom领域对用户Prompt进行了微调,以确保用户请求表达更加清晰,并避免会话被过早终止。此外,所有领域均采用GPT-5.2作为User Agent。
- IFBench: GPT-OSS-120B(low)和GPT-5.4-mini(Non-Reasoning)的分数引自AA榜单;其余模型的结果来自内部评测。
实战演示:Ling-2.6-flash 的即时执行能力
代码场景
1. 网页生成
Ling-2.6-flash兼具高审美表达与高速代码生成能力,能够准确理解并调用前端组件与图标库,尤其适合单页面演示和原型制作中的快速验证。
2. INT4 的量化版本在 DGX Spark 上运行
基于Ling-2.6-flash与DGX Spark,可以构建业界领先的Hermes一体机教程。
3. 结合 Kilo Code 生成风格化网页
在Kilo Code中,Ling-2.6-flash不只是一个代码生成器,更能将视觉指令快速转化为高质量界面。结合Kilo Code的工程底座,它能够胜任个性化视觉风格生成、报刊级排版,以及周刊、报告等办公内容的即时生成,实现兼顾速度与设计质感的“输入即成品”。
文本场景
1. Prompt 驱动的工作流执行
仅凭Prompt,Ling-2.6-flash即可胜任多步骤文本任务执行,在指令遵循、文风调整与实时生成方面表现突出,生成内容自然流畅。
Agent 工具调用场景
1. 红楼梦人物及事件图谱提取
Ling-2.6-flash具备强大的上下文检索、工具调用与高速响应能力,非常适合复杂信息处理与知识增强场景。
2. autonovel 长篇小说写作
autonovel是一款长篇小说写作助手,可覆盖世界观设定、角色构建、大纲生成到正文创作的全流程。基于Ling-2.6-flash,autonovel进一步提升了长篇创作的生成效率、上下文一致性与剧情推演能力,在超长文本生成、伏笔衔接和内容精修等环节表现突出。通过200+ tokens/s的极速生成,仅需几十分钟即可产出百万字级别的长稿作品。
3. 需求整理和排期
Ling-2.6-flash为真实工作场景而设计,能够在信息检索、任务拆解、内容处理与工具协同等流程中稳定参与实际执行。凭借较低的幻觉率与较高的结果可用性,它不仅能回答问题,更能真正承担任务、推进流程,是一款“能干活”的实用型模型。
局限性与未来计划
Ling-2.6-flash在极致智效比上的探索,已取得阶段性进展。在工具调用、多步规划与长程任务执行等关键维度上,模型能力均实现了明显提升。结合推理效率与交互体验上的系统性优化,Ling-2.6-flash已能够更从容地应对大规模、高频次的自动化执行任务,在真实应用场景中展现出更强的落地价值。
与此同时,我们也清醒认识到,对极致智效比的追求并非没有代价。在部分高复杂度场景中,受限于推理深度,模型仍可能出现一定的工具幻觉;此外,在中英双语自然切换、复杂指令遵循等方面,Ling-2.6-flash仍有进一步的优化空间。
面向后续迭代,我们将继续探索智效比的更优边界,在保持高效推理特性的同时,进一步推动智能产出质量与Token效率之间的深度平衡,持续提升模型在全场景下的稳定性、可用性与交互体验。
使用与体验
Elephant Alpha(Ling-2.6-flash 匿名测试版)正式揭晓
一周前,代号为Elephant Alpha的匿名模型登陆OpenRouter。上线以来,其调用量持续增长,连续多日位列Trending榜首,日均tokens调用量达100B级别。今天,我们正式揭晓:Elephant Alpha正是百灵模型Ling-2.6-flash的匿名测试版本。
经过一周的持续迭代和优化,Ling-2.6-flash在Agent场景的泛化性和稳定性方面获得了进一步提升。在Elephant Alpha测试期间,我们收到了来自社区的众多真实反馈,其在速度和Token消耗方面的表现获得了广泛认可。
滑动查看更多
即刻接入
为方便更多开发者快速体验Ling-2.6-flash,我们将在OpenRouter与官方平台同步提供一周免费API调用。
OpenRouter 体验地址为:
https://openrouter.ai/inclusionai/ling-2.6-flash:free
- 免费期结束后,将按使用量计费:输入$0.1 / 百万 tokens,输出$0.3 / 百万 tokens,缓存命中$0.02 / 百万 tokens(按 20% 计费)。
Ling-2.6-flash 官方 API 服务也已正式开放,访问地址为:
https://ling.tbox.cn/chat
- 官方免费期结束后,平台仍将提供每日50 万 tokens 免费额度;超出部分按量计费:输入¥0.6 / 百万 tokens,输出¥1.8 / 百万 tokens。
模型的 BF16、FP8、INT4 等版本也将于近期正式开源。