企业AI成本治理：价格战下账单反升的工程化方案

2026-06-15阅读 0热度 0

Pro

2026年5月，DeepSeek突然宣布V4-Pro永久降价75%，仅仅五天后，小米的MiMo-V2.5更是直接打了个1折。Token单价跌到历史最低点，全国每天用掉的词元达到140万亿次。

按常理说，价格战打得这么凶，企业账单应该跟着缩水才对。但现实恰恰相反——不少公司反馈，降价之后，AI月支出反而涨了。

用量爆发的弹性远超预期

先看一个典型案例。据Bloomberg报道，Uber前四个月就花光了2026全年的AI预算。公司五千多名工程师中，95%每个月都在用AI编码工具，人均月Token支出在500到2000美元之间。最后管理层不得不给每人每月设置1500美元的硬上限。贝恩对全球951家年收入超1亿美元的企业做了调查，发现AI支出超过1万亿美元之后，实际节省下来的成本普遍远低于预期。44%的大型企业甚至还在用尚未实现的节省来为下一轮投资背书。

价格下降确实刺激了需求，但需求膨胀的速度远远超过了价格下跌的幅度——这就是为什么账单不降反升的第一层原因。

Agent 时代的词元通胀

更隐蔽的问题出在消费模式上。Agent执行任务时，后台会拆解、验证、重试，单次任务用掉的Token比同样长度的人工对话多10到100倍（数据来自深圳特区报）。高盛算过一笔账：即使推理成本每年下降60%到70%，到2030年Agent式AI的月Token消耗还是会增长24倍。成本下降的速度根本赶不上消费增长的速度。这个结构性矛盾意味着，如果只盯着Token单价做预算，实际支出一定会被严重低估。

多 Provider 账本分散：缺乏统一的治理视图

企业一般同时用好几个模型供应商——研发用Claude和GPT，算法组用DeepSeek和通义千问，产品组用Kimi。每个供应商都有自己的计费系统和账单格式，没有一个统一的成本视图。由此引发不少头疼的问题：离职员工的Key还在持续扣费，测试环境的Key被遗忘但仍在跑，某个模型调用量突然飙升却没有预警机制。到了月底，只能对着各平台的账单总数发呆，根本追溯不到具体的使用者、项目和场景。

4月份的LiteLLM供应链投毒事件和Braintrust的API Key泄露事件进一步暴露了隐患——Key散落在项目配置、环境变量和CI/CD Secret里，缺乏统一的轮换和审计机制。

工程化治理的三个方向

1. 统一计费袋里层

在多Provider前面加一个袋里层，所有模型请求都走统一出口。袋里层负责记录每次调用的模型、Token量、成本和调用方信息，输出统一的消费数据模型。这就像企业IT架构中API网关统一管理南北向流量的思路，简单但有效。

2. 会话级消费归因

现在的账单粒度太粗——只知道某把Key这个月花了多少钱。需要把会话标识注入调用链路，让消费数据能按项目、人员、环境维度聚合。这样才能从“Key花了多少”变成“谁在什么时候、因为什么花了多少”，真正实现归因。

3. 实时异常检测

对消费速率、调用模式、失败率建立基线，一旦某个会话的Token消耗突然飙升，或者某把Key在非工作时间被高频调用，实时触发告警。这种主动发现的方式，比月底查账单的被动模式有效得多。

Token降价确实推动了AI的规模化采用，但也把多Provider成本治理的复杂度摆到了明面上。企业真正需要的，不是更便宜的Token，而是能看清每一笔消费的能力——看清了，才能管好。