企业AI成本治理:价格战下账单反升的工程化方案
2026年5月,DeepSeek突然宣布V4-Pro永久降价75%,仅仅五天后,小米的MiMo-V2.5更是直接打了个1折。Token单价跌到历史最低点,全国每天用掉的词元达到140万亿次。
按常理说,价格战打得这么凶,企业账单应该跟着缩水才对。但现实恰恰相反——不少公司反馈,降价之后,AI月支出反而涨了。
用量爆发的弹性远超预期
先看一个典型案例。据Bloomberg报道,Uber前四个月就花光了2026全年的AI预算。公司五千多名工程师中,95%每个月都在用AI编码工具,人均月Token支出在500到2000美元之间。最后管理层不得不给每人每月设置1500美元的硬上限。贝恩对全球951家年收入超1亿美元的企业做了调查,发现AI支出超过1万亿美元之后,实际节省下来的成本普遍远低于预期。44%的大型企业甚至还在用尚未实现的节省来为下一轮投资背书。
价格下降确实刺激了需求,但需求膨胀的速度远远超过了价格下跌的幅度——这就是为什么账单不降反升的第一层原因。
Agent 时代的词元通胀
更隐蔽的问题出在消费模式上。Agent执行任务时,后台会拆解、验证、重试,单次任务用掉的Token比同样长度的人工对话多10到100倍(数据来自深圳特区报)。高盛算过一笔账:即使推理成本每年下降60%到70%,到2030年Agent式AI的月Token消耗还是会增长24倍。成本下降的速度根本赶不上消费增长的速度。这个结构性矛盾意味着,如果只盯着Token单价做预算,实际支出一定会被严重低估。
多 Provider 账本分散:缺乏统一的治理视图
企业一般同时用好几个模型供应商——研发用Claude和GPT,算法组用DeepSeek和通义千问,产品组用Kimi。每个供应商都有自己的计费系统和账单格式,没有一个统一的成本视图。由此引发不少头疼的问题:离职员工的Key还在持续扣费,测试环境的Key被遗忘但仍在跑,某个模型调用量突然飙升却没有预警机制。到了月底,只能对着各平台的账单总数发呆,根本追溯不到具体的使用者、项目和场景。
4月份的LiteLLM供应链投毒事件和Braintrust的API Key泄露事件进一步暴露了隐患——Key散落在项目配置、环境变量和CI/CD Secret里,缺乏统一的轮换和审计机制。
工程化治理的三个方向
1. 统一计费袋里层
在多Provider前面加一个袋里层,所有模型请求都走统一出口。袋里层负责记录每次调用的模型、Token量、成本和调用方信息,输出统一的消费数据模型。这就像企业IT架构中API网关统一管理南北向流量的思路,简单但有效。
2. 会话级消费归因
现在的账单粒度太粗——只知道某把Key这个月花了多少钱。需要把会话标识注入调用链路,让消费数据能按项目、人员、环境维度聚合。这样才能从“Key花了多少”变成“谁在什么时候、因为什么花了多少”,真正实现归因。
3. 实时异常检测
对消费速率、调用模式、失败率建立基线,一旦某个会话的Token消耗突然飙升,或者某把Key在非工作时间被高频调用,实时触发告警。这种主动发现的方式,比月底查账单的被动模式有效得多。
Token降价确实推动了AI的规模化采用,但也把多Provider成本治理的复杂度摆到了明面上。企业真正需要的,不是更便宜的Token,而是能看清每一笔消费的能力——看清了,才能管好。
