AI模型成本将降99%:Coinbase CEO预测18个月内
年初还为每月几十美元的AI助手高呼真香,转眼账单暴涨十几二十倍——这不是玩笑,而是大量GitHub Copilot重度用户正在经历的账务冲击。6月1日起,GitHub Copilot正式切换至按Token用量计费的新规则,抛弃了过去的固定订阅制。部分高频开发者的月费从几十美元直线飙升至数百甚至上千美元。有开发者在社交平台晒出内部测算截图,显示其账单将从44.68美元暴涨至754.29美元;另有用户预估,下月支出可能高达847美元。
这远不止一次产品调价。背后是AI产业长期依赖“低价圈地—规模扩张—后期提价”路径所积累矛盾的集中爆发。更关键的是,Coinbase首席执行官Brian Armstrong和Hugging Face首席执行官Clement Delangue等一线决策者已释放明确信号:成本直降99%的轻量模型与开源小模型,或将承接未来八成AI任务负载。一场关于AI商业模式可持续性的深层思辨正在全面升温。
01
GitHub Copilot计费转向:补贴红利终结
GitHub Copilot本轮调整早有征兆。今年4月,GitHub首席产品官Mario Rodriguez公开表示,随着智能体(Agent)类应用兴起,旧有定价体系“已难以为继”——一次简短提问和一次耗时数小时的自主编码任务,在原有模式下收费完全相同,而GitHub一直在默默承担不断上涨的推理开销。
新规于6月1日正式实施。新体系根据调用的AI模型类型及实际消耗的Token数量,折算为“AI积分”,每积分价值0.01美元。订阅用户享有基础积分额度,并按订阅等级获得额外弹性积分。问题在于,不同模型的单位Token推理成本差异悬殊,尤其前沿大模型的Token消耗更高,最终费用自然剧烈波动。
用户反馈来得又快又尖锐。在GitHub官方Reddit社区,一位自称从首发日起就订阅Copilot Pro+的用户留言:“每月39美元虽贵,但尚可接受;如今换成积分制后,我粗略估算下月账单:847美元。”多位开发者将这种变化比作Uber早期策略——先以低于成本的价格培养用户习惯,等依赖形成后再大幅涨价。
Gartner分析师Arun Chandrasekaran在接受Business Insider采访时点出一个更令人不安的事实:Copilot的案例“或许只是冰山一角”。随着高阶推理模型与智能体工作流逐渐普及,推理端的算力需求只会继续激增,更多企业大概率会跟进按Token或按用量计费的模式。
02
补贴逻辑的系统性隐患
这次定价风波,折射出AI产业一个更深层的结构性困局。投资人Tommy Shaughnessy在社交媒体上系统梳理了他眼中“AI最可能的崩塌路径”。
他指出,长期以来按席位收取的固定订阅费,本质上是被严重补贴的,远低于重度用户的真实使用成本。一旦企业因数据合规、安全审查或定制化需求转向API直连调用,就会直接暴露在真实的按量计费之下。而实际情况中,Token消耗速度往往超出预期。他列举了多个例子来印证这个趋势,比如Uber在2026年仅用了四个月,就耗尽了全年的AI预算。
更关键的是,Shaughnessy进一步强调,当前头部AI厂商的利润率已经深陷负区间。据披露,OpenAI的利润率接近负122%——这意味着其运营高度依赖外部融资来采购GPU、训练模型并持续补贴终端用户。一旦投资者对商业化回报节奏失去信心,资本流入很可能骤然放缓甚至逆转。
当然,他也补充了边界条件:如果AI真的能驱动新药研发取得突破,或者催生出全新的业态,用户对高价服务的支付意愿也会同步提升,届时上述压力或许能得到缓解。
03
Coinbase CEO:低成本模型将定义主流
面对算力成本的持续走高,Coinbase首席执行官Brian Armstrong提出了一个相当清晰的演进框架。他判断,人类对智能化的需求几乎是无限的,但市场会快速分层:大约80%的任务,将在未来12至18个月内转向成本仅为现有方案1%的替代模型;只有剩下20%对智能上限有极致要求的场景——比如基础科学发现、复杂系统级智能体编排——才需要依赖最新一代的前沿大模型。
Armstrong把这个趋势类比为消费电子的演化史:顶配MacBook或高端游戏PC始终是小众选择,而AI领域成本下降的速度甚至比摩尔定律还快。据此他断言,未来真正的瓶颈将是能源供给与物理算力,而不是模型本身的能力上限。
他还透露了Coinbase内部的实践进展:公司正在大力推行提示词路由(Prompt Routing)机制,动态将请求分发到性价比最优的模型。在部分业务线上,他们已经做到了总成本基本稳定,但Token消耗量仍然在指数级增长。
04
开源小模型:多模型时代的现实支点
Hugging Face首席执行官Clement Delangue则援引了斯坦福大学的研究成果,为低成本模型替代提供了更量化的锚点。数据显示,本地部署模型在真实世界对话与推理任务中的准确率,已经从2023年的23.2%提升至71.3%,而运行成本与能耗仅为前沿API服务的极小比例。
Delangue由此提出了“多模型共存未来”的判断:绝大多数常规任务,将由本地化、开源、小型且经济高效的模型来承担;只有在没有其他可行方案时,才去调用前沿闭源API。
Shaughnessy的分析与这个观点形成了共振。他指出,DeepSeek V4在SWE-bench编程基准测试中的表现已经逼近Anthropic Claude Opus,但价格仅为后者的约三十分之一;目前最廉价的开源模型报价甚至低至其百分之一。他认为,中国实验室持续高强度地开源前沿级模型,让全球的推理服务商得以零成本获取核心模型资产,这正在实质性削弱闭源AI巨头的定价权与盈利空间。



