火山引擎份额逆势增长:深度解析MaaS市场竞争格局与突围策略
中国MaaS(模型即服务)市场正以超预期的速度扩张,从一个应用场景有限的领域,迅速成长为驱动企业增长的核心引擎。
IDC的最新数据印证了这一趋势:2025年,中国企业级MaaS市场的大模型调用量同比激增16倍,达到1941万亿Token。市场增长势头在2026年预计将进一步加速。
面对这一蓝海,国内主要云计算厂商与大模型公司几乎全部入局。尤其在2025年下半年,行业参与者显著加大了在算力、销售及产品资源上的投入,将MaaS业务提升至公司级战略高度,市场竞争迅速白热化。
通常,在一个快速增长的增量市场,新玩家的集中涌入会稀释先行者的份额。特别是在MaaS领域,大模型API一度被认为难以建立用户忠诚度——开发者似乎只需修改少量代码,即可在不同模型或云平台间切换。
然而,IDC的数据揭示了一个反常规的现象:2025年,火山引擎在中国MaaS市场的份额不仅未被侵蚀,反而更加稳固,从上半年的49.2%微升至全年的49.5%。
这意味着,在竞争最激烈的下半年,火山引擎不仅抵御了冲击,更在市场整体扩容中扩大了领先优势。一个直观的对比是:在中国公有云上,每产生两个大模型Token,就有一个接近运行在火山引擎的平台上。
外界常将其优势简单归因于激进的定价。确实,2024年5月,火山引擎推出豆包大模型MaaS服务时,曾将价格降至行业通用水平的0.7%。但单纯的补贴无法解释其份额的持续增长,因为竞争对手很快也将价格拉至相近区间。
真正的护城河是什么?答案是调用规模与相匹配的推理工程能力。低价策略的可持续性,最终取决于这两大核心要素。
当然,模型能力本身是基石。MaaS市场的快速扩张,本质上是模型能力突破不断解锁新应用场景的结果:编程能力的提升推动了Vibe Coding和智能体(Agent)的普及;视频生成模型正深度融入短剧、漫剧及广告制作流程。这些新场景持续推高了Token的消耗量。
这揭示了MaaS市场竞争的一个核心逻辑:它更像是一场增量市场中的“速度竞赛”。谁能更快地将前沿的模型能力产品化,并提供兼具性价比与稳定性的服务,谁就能更快地承接并引爆新增场景,从而在市场扩容中持续扩大份额。
从豆包大语言模型到Seedance视频生成模型,火山引擎背后的模型能力在持续迭代。其核心策略,正是将庞大的Token调用规模,系统性地转化为更完整的竞争力:更低的推理成本、更高的工程效率,以及支撑Agent运行所必需的基础设施。一个大模型时代的云计算“飞轮”,其轮廓已日益清晰。
01 低价背后,是规模和工程能力
云计算是典型的高固定成本、低边际成本行业。服务器、网络、研发和运维体系需要巨额前期投入,但每新增一次调用的边际成本会随之下降。规模越大,前期投入的摊薄效应就越显著。
规模效应还会放大工程优化的价值。正如火山引擎总裁谭待所言:“1万台服务器利用率优化一个点,和100万台服务器优化一个点,收益相差100倍。规模优势允许你组建更强大的团队,把事情做得更好。”
因此,当火山引擎决定重点发力MaaS时,其核心战略变量就是规模——目标并非简单地售卖模型接口,而是尽快将Token调用量做大。
为此,公司内部进行了一系列调整:将Token消耗量作为业务发展的核心指标,并改变了销售团队的考核方式。同样销售额的MaaS产品,在内部考核中的激励权重,是传统云服务产品的数倍。
与业务优先级一同提升的,还有在模型推理方向的技术投入。MaaS的成本核心在于Token的生成效率。服务器利用率、缓存命中率、算力调度效率的每一点提升,都可能带来成本的显著下降。
“更低的成本能催生更多应用,从而把市场盘子做大。”谭待回顾当时的定价决策时提到,正是基于“能够通过技术把成本降下来”的判断,才决定“一次降彻底”。
当时支撑其降价底气的关键技术,主要包括较早大规模应用的PD分离和KV Cache。PD分离是将大模型推理中的“理解问题”(Prefill)和“生成答案”(Decode)两个阶段拆解,分别匹配更合适的算力单元;KV Cache则是缓存模型生成过程中的历史状态,避免每输出一个新内容都重复计算之前的上下文,从而节省显存带宽和推理成本。
然而,这些技术都高度依赖规模。在小规模调用场景下,维护复杂的缓存和调度系统本身就会产生额外成本,甚至可能抵消技术带来的算力节省。
随着PD分离、KV Cache等技术在行业内的扩散,各家的Token价格逐渐趋同。此时,缺乏规模效应的跟随者,对标低价往往意味着更大的成本压力,甚至可能导致业务亏损。
相反,调用规模更大的火山引擎,成本压力相对更小,从而有更多空间持续投入推理技术的优化,形成可持续的低价能力。
除了技术和工程,火山引擎也在通过商业策略寻找降低成本的空间:一方面,根据上下文(Context)长度区间进行差异化定价,将选择权交给客户;另一方面,推出“节省计划”,允许客户合并计算在语言模型、视频生成等不同模型上的用量。客户在语言模型上积累的规模折扣,可以用来对冲视频生成等新业务的试错成本。
IDC报告中的另一个细节也佐证了这一点:火山引擎拥有最高的市场份额(即调用量份额);其收入份额同样排名第一,但略低于调用量份额。这说明,火山引擎每个Token的平均单价低于行业均值。
需要注意的是,IDC对中国MaaS市场的统计,主要覆盖公有云上企业调用模型的情况,不包括字节跳动内部开发的豆包、即梦等AI应用,也不包括抖音、飞书等内部业务部署大模型所产生的Token。
这些未计入统计的庞大调用量,虽然不影响市场份额数字,却实实在在地影响着火山引擎的成本结构和工程优化效率,构成了其规模优势的隐性基石。
02 Agent让MaaS变成了基础设施生意
OpenAI CEO山姆·阿尔特曼近期在访谈中指出了AI发展的下一阶段:将从“用户提供一段文本、大模型返回一段文本或代码”的模式,转向“Agent真正运行在公司内部,完成各种不同类型的工作”。他透露,OpenAI正与AWS合作开发一款类似“虚拟同事”的产品。
这一趋势正在深刻改变MaaS的形态。它正从标准化的模型接口供应,演变为企业不可或缺的基础设施,用户黏性也因此大大增强。一个企业级Agent要真正运行起来,远不止调用模型那么简单,它需要一整套支撑系统:身份认证、权限控制、记忆系统、工具调用、沙箱环境、日志记录、安全治理等组件,以及与内部各类系统的无缝连接。
这也是为什么近期大模型行业开始高度重视“Agent Harness”。所谓Harness,原意是“马具”或“套具”。在Agent语境下,它指的是与基础模型配套的工程系统。MaaS提供稳定的模型能力,而Harness则负责将推理过程转化为可约束、可追踪、可持续运行的复杂工作流。
云平台提供大模型服务的方式也随之进化。无论是Anthropic与多家云厂商的合作,还是今年4月OpenAI与AWS的联手,都不再是简单地将模型接口上架云市场,而是将其深度封装进云平台原生的Agent开发与运营环境中,让企业能够在云平台内一站式地开发、部署生产级Agent。
回顾火山引擎过去几年的产品演进路径,可以清晰地看到这一趋势:在提升MaaS核心竞争力的同时,其服务边界正在扩展,致力于打造覆盖Agent开发与运营全生命周期的基础设施。
“我们是国内第一个推出全套Agent产品,真正把Agent开发简化的。”谭待在去年底的访谈中表示,客户只需写几行代码,就能构建出一个复杂的Agent,“就跟你以前开发一个复杂的网站一样”,只不过现在需要的是新的AI中间件。
在他看来,传统的编程本质上是编写if-else语句来定义工作流;而基于模型的Agent开发,开发者更多是在编写提示词(Prompt),流程规划、任务拆解、创建子Agent等环节,则越来越多地交给模型自主完成。这也是OpenClaw这类产品的底层逻辑。
正因如此,火山引擎能在今年初支援央视春晚活动的同时,迅速推出基于OpenClaw的产品ArkClaw,在提升安全能力的同时,还开源了为Agent长期记忆设计的上下文数据库OpenViking等组件,让ArkClaw变得更好用。
他们将“ArkClaw个人版”定位为“敏态Agent”:先让员工快速实验那些能提升业务效率的点子,待验证有效后,再将能力沉淀、固化为“稳态Agent”。后者对应的,正是火山引擎在2024年上线的企业级Agent开发和运营平台HiAgent。
到今年4月,在火山引擎上累计消耗万亿Tokens的企业客户,已从去年底的100家增长到了140家。越来越多的MaaS大客户,正在与火山引擎展开更深入、更紧密的合作。
03 AI云飞轮,开始转起来了
在商业分析中,“飞轮效应”常被用来解释全球最大云计算平台AWS的成功:规模摊薄成本,降价吸引更多客户,客户增长带来更多反馈、现金流和更强的生态,进而推动技术和服务持续迭代,形成一个自我强化的正向循环。
火山引擎正在AI时代试图构建类似的飞轮。但它的飞轮逻辑并不完全等同于传统云计算。传统云计算的飞轮,核心围绕算力、存储、网络和软件生态;而MaaS的飞轮,则额外增加了模型能力、Token使用模式、Agent场景以及真实业务反馈这几个关键齿轮。
火山引擎飞轮的第一层,是模型能力、调用规模和推理成本之间的循环。
字节跳动内部的模型研发团队Seed,为火山引擎稳定供应着处于第一梯队的模型能力。模型越强,越容易吸引客户,扩大调用规模;调用规模越大,越能通过规模效应和工程技术压低单位成本;成本下降后,又能吸引更多对价格敏感的客户涌入。这是一个接近传统云计算的规模飞轮,只是计量单位从服务器、存储和带宽,变成了Token。
飞轮的第二层动力,则来自真实、高频的业务场景反馈。字节体系内,每天上亿人使用的豆包、快速增长的即梦,以及抖音、飞书等数十条内部业务线,连同外部的大量企业客户,都在通过火山引擎开发和使用大模型能力。这为火山引擎提供了海量、复杂、真实的业务反馈。
这些反馈一端流向后端的Seed模型团队,帮助基础模型持续迭代,保持竞争力;另一端则流向火山引擎前端的Agent产品团队,帮助其打磨更贴合实际需求的产品功能。
Agent产品的进化尤其依赖这种反馈。Anthropic也在多篇技术文章中提到,Agent能力的提升并非只靠模型本身的进步。内部员工的日常使用、外部用户的反馈、生产环境的监控数据、A/B测试结果、用户研究以及客户的实际部署需求,共同推动了像Claude Code这类产品的迭代。
2025年,火山引擎在中国MaaS市场拿下接近一半的份额,或许只是其飞轮开始转动后显现出的一个阶段性成果。
当前,Agent热潮继续推高市场需求,行业一度出现算力供不应求的局面。一些公司选择了涨价以优化短期财务表现。对此,火山引擎明确表示不会跟进。
这种定价上的克制,源于其对行业发展阶段的判断:比起获取更高的短期利润,现阶段更重要的是扩大调用规模、降低使用门槛、积累更多真实场景,从而让整个飞轮获得更快的转动加速度。
正如谭待所言,AI云的竞争是一场马拉松,现在才刚刚跑完一公里,当前的份额并不代表终局,“比速度更重要的,是加速度”。
