国产万亿模型开源实力测评:养“龙虾”能力对比榜单
5月15日,蚂蚁百灵正式开源其旗舰级思考模型Ring-2.6-1T。该模型于5月9日发布,其核心创新在于引入了可动态调节的“推理强度”机制。
这一机制允许开发者根据任务复杂度,灵活调配模型的推理资源。它主要提供两种预设模式:“high”模式针对高频智能体工作流,优化多轮对话、工具调用及复杂任务分解的效率;“xhigh”模式则专为攻克数学竞赛、深度科研分析等高难度挑战而设计。
两种模式在基准测试中展现了明确的能力分野。在“high”模式下,Ring-2.6-1T于评估OpenClaw框架适配性的PinchBench测试中获得87.60分,表现优于GPT-5.4 xHigh与Gemini-3.1-Pro high。同时,在衡量长程任务自主执行能力的Tau2-Bench Telecom测试中,它以95.32分证明了其在智能体场景下的卓越规划与执行能力。
启用“xhigh”模式后,模型在复杂推理任务上实力尽显。其在数学推理测试AIME 26中取得95.83分,与DeepSeek V4 Pro Max持平。在更具挑战性的研究生级科学推理测试GPQA Diamond中,88.27分的成绩虽略低于Kimi-K2.6 Thinking等模型,但仍稳居顶尖行列。
强劲性能源于创新的训练架构。Ring-2.6-1T采用异步强化学习训练架构,将策略采样与参数更新解耦为独立并行的流水线。这一设计有效解决了传统同步训练中GPU资源闲置、训练吞吐量受限的瓶颈,为大规模持续稳定训练奠定了基础。此外,百灵团队将已在Ring-1T中验证有效的“棒冰算法”融入异步训练流程,进一步保障了训练过程的稳定性。
目前,该模型的权重文件已在Hugging Face与ModelScope平台开源,并提供在线体验。
一、能开发Web工具、做财务分析,还能开发3D游戏
模型的实际价值,最终由开发者用脚投票。在OpenRouter平台为期一周的限时API体验中,开发者的反馈集中体现了模型处理真实任务的规划与执行能力。从会议纪要整理、内容计划生成,到重构React管理后台、处理复杂状态逻辑、编写代码乃至开发Three.js交互页面,Ring-2.6-1T均展现出主动拆解任务、规划步骤并持续推进的智能体特性。
为直观展示其应用潜力,百灵团队近期公布了七个落地案例:
在Pi Coding Agent场景中,Ring-2.6-1T能够搜索互联网上的Web设计风格,并批量生成符合不同风格的交互式介绍页面。
(视频)
在OpenCode环境中,用户可指挥模型在真实项目代码库中定位并修复一系列样式适配相关的Bug,同时自动生成修复文档。
(视频)
同样在Pi Coding Agent中,它能够检索典型的3D框架与游戏场景资源,并据此生成可运行的3D场景与简单游戏。
(视频)
在智能体应用层面,Ring-2.6-1T能够生成用于提升其他任务效率的Web工具,并利用Agent Skill进一步优化这些工具的性能。
(视频)
在Kilo Code中,用户可令其编写脚本,综合调用macOS系统的OCR能力、脚本执行能力与模型自身推理能力,实现从发票图片识别到生成可交互财务分析演示的全自动化家庭账单分析流程。
(视频)
面对深度研究场景,模型可通过Agent Skill编写复杂研究工作流。它能严格遵循Skill文档定义的流程,研究上百个信息来源,最终综合输出一份结构清晰的风险调研与投资建议书。
(视频)
此外,它甚至能自行开发个性化学习助手,主动检索规划学习内容、构建知识图谱,并根据用户实时反馈动态调整讲解难度与方式。
(视频)
二、异步训练+棒冰算法,提高GPU利用率
传统同步强化学习训练存在固有瓶颈:策略生成与梯度更新紧密耦合。这直接导致三个核心问题:GPU资源利用率低下,大量算力在等待同步时被闲置;训练吞吐量不足,严重拖慢模型迭代速度;长周期训练稳定性差,易出现策略崩溃或奖励信号退化。
Ring-2.6-1T采用的异步训练架构正是针对这些痛点。它将策略采样与参数更新解耦为并行流水线,使采样与更新可同时进行,显著提升了GPU利用率与整体训练效率。该架构尤其适配大规模、长周期的持续训练,有效规避了同步瓶颈导致的训练中断风险。
在此基础上,百灵团队将推理大模型Ring-1T中经过验证的“棒冰算法”迁移至异步强化学习训练流程中,进一步加固了训练过程的稳定性,确保了最终模型输出的高质量。
结语:用更少token完成任务,百灵追求真实生产环境使用
近一个月来,百灵模型家族迭代迅速,接连开源了多款模型,覆盖Ling语言模型与Ring推理模型两大系列。
此前,Ling-2.6-flash的匿名测试版“Elephant Alpha”在OpenRouter上线后,曾连续多日位居Trending榜单首位,日均tokens调用量达百亿级别,这侧面印证了市场对高效能模型的迫切需求。
纵观百灵产品线,尽管各模型尺寸与能力侧重不同,但一个共同理念贯穿始终:致力于以更少的token消耗完成更高质量的任务输出。相较于单纯追求参数规模或基准测试分数,百灵更聚焦于模型在真实生产环境中的实用性与效率。这一差异化定位,或许是其应对激烈行业竞争的关键策略。

