请提供原始标题,以便我按规则生成优化标题。

2026-06-09阅读 0热度 0
ai

在AI领域,近期涌现出一个看似违背直觉的概念——Token滥用(Tokenmaxxing)。直白地说,这是指企业将AI的Token消耗量直接等同于生产力,最终烧掉大量预算却未能带来实质性业务产出。这一现象早该引起行业重视并深入剖析。

AI预算爆炸:Token滥用现象蔓延企业界

先明确界定:Token滥用,指企业将AI的Token使用量视为生产力的代名词。然而Token用量极易沦为虚荣指标——数据不断攀升,表面看“很AI”,但这些Token究竟转化了多少业务价值,始终难以量化。此前,这种思维一度盛行,但如今风向已变。业界正从“为了用AI而用AI”转向“评估AI是否真正盈利”,理性分析逐渐占据主导。

最典型的案例来自Uber。Uber首席技术官Neppalli Naga上个月向《The Information》坦言,自己“已回到原点”,因为原先预估足够的AI预算早已耗尽。这笔预算原本拨给Uber使用Anthropic Claude Code。结果几周后,Uber首席运营官Andrew Macdonald在接受采访时直接回应,称Naga的言论让运营团队“脑子快炸了”。Macdonald的原话是:“所有人都说,‘哦,脑子要炸了’……我们必须开始讨论Token消耗、相关成本以及人员编制的对比,然后在工程组织里作出权衡。如果你无法清晰说明到底给用户交付了多少有用的功能,这种权衡根本得不到认可。”

Lanai联合创始人兼CEO Lexi Reese指出,这一问题正四处蔓延,Uber只是最新一家撞上南墙的知名企业。“Token滥用真实存在,代价高昂,且不仅限于少数工程师或某家公司,”她告诉The New Stack。Token滥用的后果不止是资金浪费——代码变得臃肿,智能体不受控地疯狂扩张,最终导致软件应用脆弱、漏洞百出,整体系统可见性显著下降。

Lanai本质上是一家聚焦AI问责的公司,帮助客户厘清AI资金流向:钱花在哪些工作流上?成本是多少?近期他們推出了一款名为Token Tuner的工具,专门用于识别哪些环节可以采用更便宜的模型来削减不必要的Token开销。该工具面向开发者和管理者,用于管控工程师和终端用户的Token用量。目前市场上已有不少类似方案,比如“减少Token用量的十大技巧”、Kong、Braintrust、LiteLLM、Dynatrace等公司也提供了相关产品。但Lanai团队将Token Tuner定位为“填补企业上下文缺失空白”的服务——他们希望将Token支出与具体工作流、模型选择、效率以及创造的价值一一对应,构建一条清晰的因果链条。

具体如何实现?Token Tuner将每次AI交互与可量化的成果绑定,并根据用户将Token用量和模型选择匹配到具体任务的程度,生成一个生产力评分。举例来说:若某位员工使用Opus 4.7这样的大模型去回复简单邮件,他的效率得分大概率低于使用小模型的员工。Reese的观点非常明确:与其盲目追求Token消耗量,不如聚焦“成果最大化”——分析哪些工作流真正提升了生产力。

目前Token Tuner仍处于测试阶段。某位客户的数据颇具参考价值:一位用户仅消耗全组织0.7%的Token,却承担了4.2%的AI工作量,效率得分高达6.0——表明他能将任务精准匹配给合适的模型。相比之下,其他用户的Token消耗量是这位高效用户的十倍,效率却只有他的一半。高下立判。

Lanai首席产品官Mohit Mehta介绍,Token Tuner是一款“全地形”工具,其评分引擎能在单个工作流同时跨越多个模型时,依然准确计算生产力得分。计算原理是:“生产力的估算依据,是通过Lanai专有模型观测到的提示词和工具活动,来衡量委托给AI的工作复杂度,”Mehta说,“该模型在提示词和工具调用层面运作,独立于具体模型和应用程序之外。”

谈到此处,一个关键问题浮出水面:随着业界(甚至政界人士也开始使用“可量化成果”这样的表述)对业务成果越来越重视,API层需要怎样的监测手段,才能让Token Tuner将Token消耗归因到具体的业务成果?Mehta的解释直截了当:“Lanai会聚合某次会话中的提示词交互和相关工具活动,再运行专有模型来计算任务类型、相关生产力增益和复杂度。这样一来,客户就能从毫无上下文的供应商账单,进阶到在交互层面打通意图、价值与成本之间的关联。而且,这一过程无需任何定制化的监测配置。”

业务用户可能会担心:Token Tuner推荐使用低成本模型,如何保证输出质量不下降?Mehta的回答极具说服力:“我们不依赖合成评估,而是利用观测到的真实结果数据。我们的建议基于组织内真实用户在不同模型间取得同等效果的实际情况。我们提供的不是‘这个方案应该适合你’这种泛泛建议,而是‘贵公司的团队使用某款低成本模型完成了这一具体工作流,且效果相当’这样有实证支撑的依据。这体现的是大规模真实场景下的偏好,而非合成基准测试的结论。”

最后,Token Tuner的核心功能可以归纳为三大板块:第一,工作流级别的价值可视化——揭示哪些团队、哪些工作流在驱动AI支出,这些用量是否与可量化的业务价值挂钩;第二,生产力与效率衡量——将Token支出与用户、团队、工作流获得的效益进行对比,找出每花费一美元AI价值最高的环节;第三,支出优化建议——识别失控的工作流、任务与模型不匹配,以及那些用低成本模型就能搞定却偏要动用高端模型的情况。

回顾AI近年来的发展路径:最初我们只是想要AI,传统的预测型AI已足够;后来希望拥有基于特定领域的RAG智能;再后来演进到能在人类监督下自主工作的智能体服务。而如今,我们或许更需要的是“适得其用”的AI——不在没必要的场景里乱用,只有在真正能证明价值时才调用高性能服务。归根结底,AI的下一个杀手级应用远不止是提升业务效率,但这很可能将成为其中越来越不可忽视的一块拼图。

Q&A

Q1:什么是Token滥用(Tokenmaxxing),为什么企业要避免它?
A:Token滥用是指企业将AI的Token使用量错误地视为生产力指标。Token使用量很容易沦为虚荣指标,与实际业务成果脱节。过度使用Token不仅推高成本,还会导致代码臃肿、智能体失控扩张,甚至让软件应用变得脆弱或出现漏洞,同时降低对整体系统状态的可见性。Uber的案例就是典型——他们的AI预算因Claude Code的过度使用严重超支。

Q2:Lanai的Token Tuner工具具体能解决什么问题?
A:Token Tuner是Lanai推出的AI支出管理工具,主要解决Token消耗与实际业务价值脱节的问题。它能将每次AI交互与可量化结果绑定,生成效率评分,识别哪些工作流可以用低成本模型替代。例如发现员工用高端模型处理简单邮件时,会给出低效率评分并推荐更合适的模型,帮助企业实现“成果最大化”而非“Token消耗最大化”。

Q3:Token Tuner推荐低成本模型时,如何保证输出质量不下降?
A:Token Tuner不依赖合成基准测试,而是基于组织内真实用户的实际使用数据来推荐。它提供的是“贵公司的团队已经用某款低成本模型完成了同类任务,且效果相当”这样的实证依据。这种基于真实场景的推荐方式,比传统合成评估更有说服力,让企业在降低成本的同时,对输出质量保持信心。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策