日均 120 万亿 Token，火山引擎两年前的赌注开始兑现

2026-04-26阅读 145热度 145

ArkClaw

两年前，当火山引擎喊出“All in Token”时，许多人觉得这更像一句正确却略显空洞的战略口号。那时，大模型的商业化还困在“有没有用”和“用不用得起”的争论里，对于大多数企业而言，“Token”更像一个遥远的技术术语，而非触手可及的商业度量衡。

时间快进到今天，局面已然不同。国家数据局局长在中国发展高层论坛上透露，中国日均Token调用量两年增长超千倍。全国科学技术名词审定委员会也为Token敲定了中文译名——“词元”。一套以Token为基石的全新商业模式，正在加速成型。

在这场范式转移中，火山引擎无疑是那个“领先者”。4月2日，火山引擎在武汉启动了其2026年AI创新巡展的首站。会上，总裁谭待公布了一组关键数据：截至今年3月，豆包大模型日均Token使用量已突破120万亿——这意味着在短短三个月内翻了一番，与两年前相比，更是实现了惊人的1000倍增长。与此同时，Seedance 2.0 API正式面向企业开启公测，而龙虾类智能体产品ArkClaw也迎来了全面升级。

火山引擎总裁谭待丨来自：火山引擎 AI 创新巡展·武汉站

两年前的押注，如今被市场验证为正确的方向。而这场巡展，正是火山引擎携已验证的战略与两件“新武器”，向全行业加速推进的起点。

Seedance 2.0：不只是「生成视频」，而是「生产视频」

自春节以来，Seedance 2.0的风潮可谓席卷全球。

这或许称得上是首个获得公认的国产SOTA（State-of-the-Art）视频生成模型。与以往的迭代不同，Seedance 2.0带来的是一场质的飞跃：它比拼的已不再是画质提升几许、生成快了几秒，或是在“对口型”、“吃面条”等特定动作上略有优化。其核心价值在于，视频生成终于从“能玩”的玩具，进化成了“能赚钱”的生产力工具。

火山方舟试用 Seedance 2.0丨来自：火山引擎官网

那么，Seedance 2.0的技术突破究竟体现在哪里？主要集中在两个方向。

首先是“多模态参考”能力。火山引擎大模型解决方案负责人张天劼在演讲中提出了一个朴素却深刻的观点：人类语言对图像和声音的描述永远是不充分的。创作者脑海中的画面，很难仅凭一段文字提示词（prompt）就完整传达给模型。Seedance 2.0的解法是，让模型不仅“读”文字，还要“看”图片、“观”视频、“听”声音——在充分消化和理解各类参考素材后，再进行创造性生成。

于是，创作者只需投入几张参考图、几段过往视频、一首背景音乐，模型便能产出电影级画质的作品。更有意思的是，当模型“观摩”了足够多的参考素材后，甚至会迸发出自己的“创意火花”。现场展示了一段由Seedance 2.0自主编排脚本、自主生成的品牌宣传素材，从创意构思到最终执行，全程无需人工干预。

这一能力也顺带解锁了一种全新的创作范式：视频编辑。优秀的创作从来不是一蹴而就的。基于对现有视频素材的参考，Seedance 2.0能够对片段进行精准修改——无论是改变整体风格、切换场景环境，还是增减画面角色。这甚至重新定义了“抽卡”的概念：过去的“抽卡”是在多次随机生成中挑选一个合格的；而Seedance 2.0的“抽卡”，则是让创作者在不同的创意方案之间做选择。

第二个突破在于对物理世界的理解。通过在训练中统一建模“理解”与“生成”，Seedance 2.0学会了物理规律。即便创作者没有精细描述每一个动作细节，模型也会自动让画面变得“合理”——动漫打斗场景中的碰撞与反弹自然流畅，一镜到底的长镜头里，多个人物与环境的交互精准到位，油脂飞溅、彩带飘舞等细微之处都处理得恰如其分。

技术好不好，最终还得看商业闭环。火山引擎分享了几个关键数据：今年春晚是Seedance交付的首个企业级大客户，屏幕上那些精美的国风画面和视觉特效均由它生成；首批标杆客户福建奇想，在制作精品动漫时，每分钟成本从超过1万元降至4000-5000元，人力投入从20多人天压缩到3人天，综合效率提升近10倍。在短剧领域，效果更为直接，3-5人的小团队一周即可完成一部作品，上线几小时便能回本。广告团队则利用它批量生成千人千面的营销素材，点击率和转化率均有显著提升。

安全合规，是Seedance 2.0敢于向企业开放的另一重底气。Seedance 2.0初发布时曾因版权问题引发争议，甚至影响了其全球发布节奏。而火山引擎推出的企业版，搭建了一套覆盖全流程、全模态的版权与肖像安全体系，从事前、事中到事后进行全链路防护，能够有效检测和防御侵权及深度伪造行为。

会上引用的第三方评测数据显示，行业平均异常率（VEO 3.1）大约在20%左右，而Seedance的综合异常率仅为1.8%——远超行业平均水平。

还有一个容易被忽略却至关重要的数字：视频生成是Token的消耗“大户”。火山引擎透露，生成1分钟720P视频，Token消耗量在百万级别。目前，火山官网对Seedance 2.0生成模式的定价为46元/百万Tokens。谭待在采访中也坦言，视频生成已成为驱动MaaS（模型即服务）收入增长的超级引擎——随着AI视频创作从实验走向产业化，视频正成为Token消耗的新主力军。

ArkClaw：解决龙虾「用起来很爽、用下去很难」的问题

如果说Seedance 2.0释放的是人类的创造力，那么ArkClaw要解决的，就是AI的执行力问题。

“龙虾”（AI智能体）无疑是2026年最热的技术叙事之一。OpenClaw的出现，让AI首次能够连接真实世界、调用工具、执行任务，吸引了海量开发者涌入。然而，热潮之下，真正在企业内部跑通并创造价值的案例却并不多见。火山引擎云基础产品负责人涛涛在演讲中的总结一针见血：OpenClaw解决了“能不能用AI”的问题，但尚未解决“AI能不能把事从头到尾做完”的问题。

他将企业使用龙虾的痛点归纳为四个词：不敢用、用不起、用不好、记不住。

“不敢用”，是因为龙虾直接操作系统和核心数据，一旦权限失控，后果不堪设想——你让它帮忙修改个密码，它可能真就改了，连二次确认都没有。“用不起”，不单指Token成本高，更指配置门槛太高，需要大量手动操作，只有技术背景深厚的人才能搞定，普通用户上手成本巨大。“用不好”，则体现在龙虾有能力但无法形成闭环，任务执行到一半就卡住，缺少平台层面的上下游连接，最终仍需人工接手，体验如同拼凑一堆散装零件。“记不住”，是最大的隐痛——你今天花费数小时调教好的龙虾，明天可能就忘了你的偏好和要求，沟通成本丝毫未减。田涛涛提到，养好一只得心应手的龙虾，平均每天需要投入4-5小时，持续5-7天。

ArkClaw 官网页面丨来自：火山引擎官网

ArkClaw，正是火山引擎针对这四大痛点的系统性回应。

在安全方面，ArkClaw从底层架构就进行了原生安全设计。每个用户拥有独立的隔离环境，默认无公网IP，所有通信经由统一网关并强制认证。来自飞书、微信、钉钉等渠道的消息均需签名校验，内置的信息防护机制可识别并拦截恶意指令。运行过程中持续进行安全检测，高危操作必须经过人工二次确认。火山引擎还获得了信通院关于龙虾类产品的两项权威认证——“智能助理智能体产品可信能力认证”和“安全防护产品有效性认证”，成为国内唯一同时获得这两项认证的厂商。

在易用性上，ArkClaw致力于实现“开箱即用”。支持秒级配对飞书，同时也兼容微信、钉钉、微博等多渠道。升级后的网盘功能，实现了本地与云端文件的无缝同步，AI可以直接批量处理云端存储的简历、报表、海报等文件。新增的浏览器智能控制能力，让龙虾可以像真人一样操作网页——例如，有公司将视频标注工作安排在夜间，让龙虾在凌晨自动打开标注平台完成任务，第二天一早便能直接验收成果。

ArkClaw还引入了“Skill”（技能）概念，不仅接入了SkillHub技能库，还支持自我封装。如果一件事你需要重复操作三次以上，就可以将其封装成一个Skill，让龙虾自动执行。这些Skill可以在团队内部共享，逐渐沉淀为企业的数字能力资产。用田涛涛的话说，“上一个时代我们说装一套软件，这个时代我们说养一只龙虾。”当企业内部的Skill越来越多，就形成了一个专属的能力库，最终实现“人在用AI”，而非“AI在用人”。

针对“记不住”这个最棘手的问题，火山引擎联合开源项目OpenViking给出了解决方案。OpenViking是专为智能体设计的长期记忆系统，今年1月开源后一度登上GitHub榜首。其核心思路是“统一与极简”——将龙虾所需的所有信息（知识、工具、任务、历史决策）按三层结构分级存储：L0是摘要，L1是概要，L2是详细内容。执行任务时按需加载必要信息，既避免了上下文噪声干扰，又大幅降低了Token消耗。它还会将智能体的决策过程、检索记录、曾犯错误保存下来，实现记忆偏好、认知纠错与经验沉淀，让龙虾越用越聪明。

效果是显著的：搭载OpenViking后，基于OpenClaw架构的智能体任务成功率提升超过40%，Token成本降低约80%。一周后再次执行同类任务，龙虾依然能遵循用户偏好和历史经验来操作。

谭待还提出了一个值得关注的企业级Agent实践模式：他认为企业Agent建设应该“敏态”与“稳态”并行。敏态以ArkClaw为代表，鼓励一线员工自由探索、激发创新，解决“如何成为更好的销售”、“如何成为市场高手”等个人生产力问题。稳态则由HiAgent承载，当通过敏态找到AI最佳实践后，便将其流程化、规范化、规模化落地。敏态是创新实验场，稳态是生产车间，两条线互补共生，形成一个从探索到规模化转型的进化飞轮。

两年前就想清楚了的事，今天开始兑现

如果把视角拉远，这次武汉站活动最值得玩味的，或许不是某一款具体产品，而是火山引擎过去两年战略的“兑现时刻”。

让我们回到2024年5月，豆包大模型首次发布。当时行业的普遍讨论还围绕在“模型能力”层面，而火山引擎已经将MaaS确立为最高优先级。谭待当时说过一句话：“只有大的调用量，才能打磨出好模型。只有在真实场景中落地，用的人越多，调用量越大，模型才会越来越好。”

这句话暗含了火山引擎整个竞争策略的三根支柱：模型能力是根基，基础设施是保障，成本是撬动用户的杠杆。

模型能力方面，从豆包1.0到2.0，火山引擎保持了高频迭代的节奏。最新的2.0系列在多模态理解、视觉推理、复杂任务执行等核心能力上已跻身全球第一梯队。而Seedance 2.0这款SOTA模型的推出，更帮助火山在视频生成这一关键场景拉开了竞争差距。

基础设施方面，MaaS的核心逻辑在于用户无需关心底层部署——不必自己购买算力卡、维护机房，或是疲于应对模型每半个月一次的更新节奏。以Token为单位按需调用、按量付费，这种“Token工厂”模式是使用模型最经济、最便捷的方式。火山引擎凭借自身的推理基础设施，将这个“工厂”的效率和稳定性推到了行业前沿。

成本方面，2024年率先打响大模型价格战，以极具竞争力的Token定价迅速扩大市场份额。低成本并非目的，而是做大调用量的手段——调用量大了，模型迭代更快、效果更好；模型更好了，适用场景就更多；场景更多了，调用量就更大。一个正向的飞轮就此转动起来。

两年过去，这个飞轮转出了什么成果？MaaS调用量增长1000倍。累计Token消耗超万亿的企业客户，从100家增长到140家。在所有云厂商中，火山引擎也是唯一一家从2024年5月起就持续追踪并公布Token公有云调用量的平台。这不仅是信息同步，更是在用Token调用量这一核心指标，来定义自身的业务健康度。

而现在，两个新变量的叠加，让火山引擎的先发优势被进一步放大。

Seedance 2.0带来了视频生成的产业化。1分钟视频消耗百万级Token，当AI视频从实验走向量产，它自然成为MaaS收入增长最强劲的引擎。火山引擎不仅拥有全球领先的视频生成模型，还为它配套了完善的安全合规体系，在商业化落地的速度与深度上均跑在了前面。

龙虾的爆发则带来了Agent（智能体）场景的井喷。每一次Agent任务可能涉及几十上百轮工具调用，消耗数十万Token。龙虾让更多人第一次体验到了购买模型API、感受Token这个“新货币”价值的过程。此外，龙虾的出现，也让AI应用的最小单元从前两年的“行业”细化到了“职能”，任何公司的HR、销售、市场等岗位，都可以通过龙虾解决具体问题，这极大地加速了Agent在ToB领域的应用落地。

Seedance 2.0，加上ArkClaw与飞书的深度整合，构成了火山引擎在2026年最重要的两件武器。一个释放创造力，一个释放执行力，两者共同驱动着Token消耗的爆发式增长。

采访中有一个有趣的细节：当被问及更多大型厂商开始重视MaaS，火山引擎将如何应对时，谭待表示，正因为两年前就已经把这件事想得比较清楚，并在组织和产品上做了针对性布局与优化，所以现在反而不需要做大的调整。

回过头看，火山引擎可能是国内最早想清楚MaaS这件事的云厂商。它并非走一步看一步，而是在两年前就看到了终局——模型能力、基础设施、成本三位一体，Token就是AI时代的水电煤。如今日均120万亿Token的调用量，携两款新武器杀向更广阔的市场，这些都不是偶然堆砌的成果，而是一条一以贯之的战略，在时间维度上的必然兑现。

武汉，仅仅是第一站。谭待在开场就明确表示，这是“2026年火山引擎AI城市创新发展的第一站”。接下来，火山引擎将以巡演的方式，将Seedance 2.0和龙虾这两件利器，带到全国各个城市，深入各行各业的毛细血管。

这场席卷，才刚刚开始。

日均 120 万亿 Token，火山引擎两年前的赌注开始兑现

Seedance 2.0：不只是「生成视频」，而是「生产视频」

ArkClaw：解决龙虾「用起来很爽、用下去很难」的问题

两年前就想清楚了的事，今天开始兑现

相关阅读

最新教程

最新资讯