AI项目死在工程而非模型，工程优化是关键

2026-06-23阅读 0热度 0

两周时间构建的RAG演示系统，在最终展示会上赢得全场掌声。业务负责人向VP表示，这是“本年度最具突破性的项目”。

三个月后，后台数据揭示——日活跃用户数为零。

并非缓慢衰退，而是自上线第二周起便一直归零。没有投诉，没有负面反馈，只有彻底的无人问津。

这个项目由我全程主导。在我近距离观察并参与的十几个AI项目中，这种结局并非特例，而是常态。

拥有多年电商后端架构经验，曾带领团队扛住大促流量洪峰，后转型专注AI落地。一路走来，见证过无数AI项目，存活下来的不足三成。

这并非个人主观感受。MIT 2025年的NANDA调研显示，95%的企业生成式AI项目未能产生可衡量的商业回报；RAND同年访谈65位资深数据科学家后得出结论，超过80%的AI项目以失败告终，失败率是普通IT项目的两倍；Deloitte 2025年的数据更为直接——42%的企业已砍掉至少一个AI项目，每个被终止项目的平均沉没成本达720万美元。

资金汹涌涌入，大部分仍被烧掉。

过去一年，一个判断愈发坚定——大多数AI项目，失败根源在于工程，而非模型。

这里的工程，并非狭义的编码工作。而是数据管道的就绪度、评测体系的完备性、以及让系统持续进化的闭环能力。

工程，是连接业务判断与大模型能力之间所有琐碎、艰苦的落地工作。

决定一个AI项目生死的，往往不是你选择了GPT-4o还是Claude，不是你的RAG采用了多少路召回，而是：你的数据管道能否稳定运行，你的评估能否自动化，你的团队三个月后是否还愿意维护这个系统，你的老板是否真正理解这个项目需要六个月而非六周。

这些事情，没有一件是模型能帮你解决的。

基于这个判断，我将“落地一个商业AI项目”拆解为七个层级——放翁七关。每一层都旨在阐明：核心决策是什么，判断依据是什么，以及我们踩过哪些坑。

第一关立项判断算不清ROI，就不该启动

第二关场景收敛评估体系是业务与技术的连接器

第三关技术选型选择最可控的方案，而非最前沿的技术

第四关工程落地两大黑洞：数据污染与用户恶意输入

第五关评测迭代评测不是纯技术工作，而是建立信任的基础设施

第六关组织协作杀死项目的不是技术，而是期望的落空

第七关持续运维只有建立运维闭环，系统才能活过六个月

▲ 越往下，越不像常规意义上的“AI工作” ▲

第一关 · 立项判断

评估这件事是否值得用AI来做

在编写第一行代码之前，架构师与VP需要回答的问题并非“AI能否胜任此事”，而是——使用AI完成这件事，相较于传统方式，优势具体体现在哪里？提升多少？这种“提升”能否量化成可计算的商业价值？

大多数AI立项的ROI论证存在根本性倒置：先决定“我们要做AI”，再寻找场景去套用。这与十年前“我们要建中台”的逻辑如出一辙，结局也往往相似。

正确的立项逻辑应是：理赔审核员每日需处理数百单业务，其中约60%为标准件——金额小、材料齐全、规则明确——但每一单仍需人工审阅十几份文档、核对条款、填写结论。痛点并非“人无法判断”，而是“人判断的速度太慢、成本太高”。AI的价值点因此清晰：将标准件的审核时间从15分钟压缩至2分钟。目的不是替代人类，而是协助处理确定性高的那一部分工作。

反之，如果你的立项逻辑停留在“构建一个智能XX，提升效率”这个层面，而未进一步追问“提升谁的效率、从多少提升到多少、节省的成本能否覆盖推理开销”——这类项目大概率会失败。原因并非目标错误，而是目标尚未拆解到可算账的颗粒度。在智能客服领域，“提升用户体验”本身并不模糊——CSAT、NPS、首次解决率都是成熟指标——模糊的是你计划改善哪个具体指标、改善多少、以什么代价实现。三个月后老板追问ROI，你依然无法给出明确答案。

一个清晰的判断标准是：合格的AI立项必须能够回答三个数字——每单节省多少时间、预期覆盖率多少、总成本相比纯人工能节省多少。算不出来，就不应该立项。

第二关 · 场景收敛

将模糊的需求转化为可量化的任务

立项之后，最危险的阶段并非技术攻关，而是需求的无限膨胀。

从事过后端架构的人都知道，一个系统最怕的并非技术难度，而是需求边界不清。AI项目尤其如此——因为Demo太容易制造了。你花一天搭建一个RAG原型，给业务方演示，他们兴奋地表示“太棒了，能不能再加XX功能？能不能再覆盖XX场景？”于是，你的系统从“理赔文档审核”悄然膨胀为“智能理赔全流程平台”。

这是一个明确的死亡信号。

正确的做法是：在Demo之后、正式开发之前，强制完成一件事——定义评估标准。将模糊的业务需求翻译成“给定输入X，系统应输出Y，好坏标准为Z”的明确表述。

以理赔审核为例，评估体系可分为三个层级：

第一层，文档解析的正确率——是否准确提取了关键字段

第二层，条款匹配的准确率——系统引用的条款与审核员判断一致的比例

第三层，端到端决策的一致率——通过/拒绝的结论与人工审核一致的比例

每层采用独立指标进行评测。第一层不达标，第三层不可能优秀——你便能准确定位问题根源，而非对着一个黑箱凭感觉调整参数。

RAND那份报告中，AI项目失败的根源排在首位的是“利益相关者对问题的误解与沟通不畅”。如何对齐认知？开会没用，写PPT也没用。唯一能把业务方和工程团队拉到同一张桌子的工具，就是评估体系。

没有评估，业务方无法判断系统好坏，信任便会流失；没有评估，工程师不知修改是否正确，只能盲目迭代，系统逐渐腐烂。

评估不仅仅是技术手段，更是连接业务与工程的铰链。

一个重要的判断是：场景收敛的标志并非PRD撰写完毕，而是评估流水线能够稳定运行——并且业务和技术团队已坐下来，共同签字确认了评估的通过标准。

第三关 · 技术选型

选择最可控的方案，而非最前沿的技术

在场景和评估标准明确之后，才进入技术选型阶段。

见过太多团队在此翻车的案例：花两周时间评测向量数据库，再用一个月对比LangChain、LlamaIndex与自研方案的优劣，最后耗费三个月构建一个包含五级RAG流水线——查询重写、HyDE、多跳检索、重排序、融合检索全数集成——然后上线时发现，用户的实际提问方式完全出乎意料。

技术选型的核心原则并非“选择最先进的”，而是“选择最可控的”。可控意味着：问题出现后能快速定位到具体环节，能够在不影响全局的情况下快速替换某个组件。

做过电商架构的人对此原则不会陌生——大促系统的核心设计理念就是“可降级、可熔断、可灰度”。AI系统同样适用。

选型框架可归结为四个关键问题。

一，确定性内容的占比是多少？

如果应用场景中70%的逻辑是确定性的（如规则判断、条件校验、格式验证），这部分不应交给大模型处理。应使用传统代码实现，稳定、高效且免费。大模型只需处理那30%的不确定性任务——自然语言理解、文档信息提取、复杂条款的语义匹配。

Anthropic的「Building Effective Agents」阐述得非常清晰：大多数商业场景需要的是工作流（预定义流程），而非智能体（自主规划）。那些在硅谷媒体和国内科技号中反复被吹捧的“自主智能体”，放在真实的保险理赔场景中，99%的情况下，工作流成本更低、更可控、也更易维护。

但“智能体”这个词太过诱人，所有人都想尝试——包括那些从未成功跑通一个真实业务闭环的人。

二，数据能否形成闭环？

如果应用场景能够持续产生标注数据——例如理赔业务，每一单最终都有人工审核结论——你便具备了微调模型的基础。先使用RAG快速上线，积累数据，待数据量足够后再对特定环节进行微调。这比一上来就投入微调要务实得多。

三，自建还是购买？

这不仅是经验法则，更有冰冷的数据支撑。Menlo Ventures 2025年的报告显示，企业AI支出中有76%用于购买而非自建；MIT NANDA的研究发现，购买或合作的成功率是自建的3倍。

在基础设施上重复造轮子，是架构师最容易犯的傲慢错误。你的核心壁垒在于对行业数据和业务逻辑的深刻理解，而非徒手构建一个向量召回引擎。

一个值得遵循的法则：核心流程自己编写，基础设施使用现成方案。模型调用API，向量库使用云服务，可观测性使用现有工具。但编排层——将各组件串联起来的胶水代码——必须自行编写。这一层包含你所有的业务逻辑，是变动最频繁的部分，过度依赖重型框架会导致难以脱身。

四，延迟与成本能否算得清楚？

这个问题被严重低估了。在构建RAG时一味堆叠召回与排序——查询重写、HyDE、重排序、融合检索——不仅模型容易在过长的上下文中迷失方向，还会将首字响应延迟拉长到十几秒，用户根本无法忍受。再加上每单几毛到几块钱的Token成本，如果业务单体的利润无法支撑，这个系统就会成为一个持续失血的窟窿。

做过电商的人对这个账目不会陌生：每个环节都有成本，每层都有延迟，架构并非越复杂越好，而是越精简越好。

至于算法工程师在这一关扮演的角色——从任务拆解的第一天起，到持续的故障归因，再到后期的模型蒸馏与微调——这本身值得独立成文，下一篇再详细展开。这里只说一句：工程师是建造者，算法工程师是诊断师。两个角色缺一不可。

一个核心判断：先跑通最短链路，再逐环节替换和优化。不要一开始就追求“完美架构”。选型时必须先算一笔账——按当前日均请求量，月度推理成本是多少，单次请求延迟能否控制在用户可接受的范围内。算不过来的架构，技术再先进也是死路一条。

第四关 · 工程落地

从Demo到生产环境的鸿沟

这一关我最有发言权。电商后端那些年的经历教会我一件事：一个系统80%的难度出现在上线之后。

工程落地面临两大黑洞，一个源于物理世界的混乱，一个源于人心的不可控。做过端架构的人应该不会陌生——系统永远在与两类东西作战：脏数据和恶意输入。AI系统同样如此，只是烈度更高。

第一个黑洞：非标准化数据。

Gartner 2025年预测，到2026年底，60%的AI项目将因数据质量不达标而被放弃。Informatica同年的CDO调查更为直白——只有12%的组织认为自己的数据质量达到了AI应用的要求。“数据就绪度”在所有权威调研中都是头号死因，占比近30%。

这意味着什么？意味着你花费三个月精心调参的RAG系统，在真实世界的脏数据面前会瞬间崩溃。在Demo阶段，数据是手动清洗过的，查询是自己构造的，用户也是你自己。一切看起来都很美好。上线后，你将面对：拍歪的图片、扫描模糊的PDF、手写病历、格式各异的费用清单。你的文档解析管道在这些脏数据面前将溃不成军。

举一个真实的案例。Demo阶段，我们喂给系统的全是扫描清晰的PDF白皮书。上线第一天遇到的第一张真实票据，是一张被揉皱后又展平、盖着红色印章、拍照时手指还遮挡了一角的照片。流水线直接崩溃——OCR识别率从Demo时的97%骤降至不足40%。

后来我们发现，在这个场景下，编写300行处理图片透视变形和印章干扰的传统计算机视觉代码，比调整30次提示词都管用。

数据质量是AI系统的地基，但它恰好是所有人最不愿投入精力的部分。因为这不是“AI工作”——清洗、解析、格式统一、异常处理——全是后端工程师熟悉的脏活累活。如果项目一开始就将50%的资源投入到数据管道上，结局会截然不同。

第二个黑洞：恶意输入。

当系统开始接收真实用户输入时，必须假设用户会输入任何内容。Simon Willison提出的“致命三重奏”——私有数据访问权限、外部内容输入能力、以及外发能力——这三者同时存在时，提示注入的风险无法在提示词层面解决，只能通过架构隔离。

更不用说在金融、医疗、保险行业，将敏感数据（病历、保单、身份信息）发送至公网API所带来的合规红线——这已经不是工程问题，而是法律问题。

这与做电商时处理支付安全的思路一致：安全不是一项功能，而是一种架构设计理念。

一个建议的资源分配方案：团队资源应大致按如下比例分配——数据管道占40%，核心AI逻辑占30%，评估与监控占20%，前端和产品占10%。然而，大多数团队将70%的资源花在了AI逻辑上，这完全是本末倒置。

第五关 · 评测迭代

从“能运行”到“值得信赖”

系统上线了，老板和业务方立刻追问：“准确率到底是多少？”

如果你答不上来，或者给出的数字缺乏置信度，这个项目就开始失去信任。一旦失去信任，项目不会因为技术更优秀而翻盘——因为没有人再愿意为你投入资源和时间。

评测并非纯粹的技术环节，而是构建信任的基础设施。

一个可行的做法是：每周从线上流量中抽取200个样本，交由资深审核员进行二次审核作为基准真相，自动计算决策一致率。这个数字每周在团队周报中透明公示。业务方能够清晰地看到系统是在进步还是退步。

举一个反面例子。早期有一个月，为了赶一个新功能的上线，我们暂停了周度评估。结果那个月底，上游模型服务进行了一次静默版本更新，系统的条款匹配准确率从91%悄悄滑落至78%。这件事并非我们发现的，而是业务方从审核员的反馈——“最近引用的条款似乎有点奇怪”——中挖掘出来的。

信任的裂缝一旦出现，修复成本远超你的想象——接下来的两周里，我们投入了大量时间重新运行评估、向业务方进行复盘、并承诺建立新的监控机制。从那以后，评估工作从未中断过一周。

要做到这一点，需要三个前提条件：标注资源（需要与业务团队协调出人力资源）、自动化的评估流水线（不能每周手动运行）、以及评估结果与系统变更的关联能力（这周修改了什么，数据指标发生了多大变化）。

一个关键判断：评估上的投入应占项目总工时的20%以上。这个比例在大多数团队看来“过于奢侈”。但我的反复验证表明——评估投入不足的项目，六个月后必然会进入“改了也不知道是好是坏”的黑暗迷失期。

第六关 · 组织协作

杀死项目的不是技术，而是期望的落空

这一关很少有技术博客会提及，但它可能是最致命的一环。

做AI落地，最困难的部分不是写代码，而是管理期望。

Deloitte 2025年的调研给出了一条精确的死亡时间线：56%的失败项目中，高管的核心支持在六个月内蒸发。原因是什么？业务方观看了Demo后，觉得AI无所不能，期望值被拉满。上线后发现实际覆盖率只有70%，还有30%需要转人工处理，于是质疑——“这也叫AI？”

项目并非被技术问题杀死，而是被失望情绪杀死。

我们第一次签署“能力边界协议”其实是被动之举——并非主动想到，而是之前一个项目上线后，被业务方投诉“说好的AI为什么还要人工复核”，这才痛定思痛，被迫倒逼出来的。现在回想，那个项目如果能提前三个月签署这份协议，或许就不会走向失败。

项目启动时，应与业务方签署一份“能力边界协议”——白纸黑字写清楚：第一期覆盖哪些场景、明确不覆盖哪些、预期准确率是多少、什么情况下需要转人工处理。这份协议不是技术文档，而是一份信任契约。

它的内容结构大致如下：

核心功能	本期覆盖范围	明确排除范围	验收标准	异常情况兜底措施
发票识别	机打发票	手写发票	字段识别准确率 ≥ 98%	切换至人工录入
条款匹配	单一险种匹配	跨险种交叉判断	条款召回率 ≥ 90%	提示“建议人工复核”
审核决策	标准件（金额 < 5 万）	重大疾病/高额案件	与人工决策一致率 ≥ 85%	自动转交资深审核员

有了这张表格，业务方不会在上线后质问“为什么手写发票无法识别”，因为白纸黑字注明了“明确排除范围”。技术团队也有了清晰的交付标准，不会陷入“永远在优化，但永远不够好”的泥潭。

另一个问题是团队的融合。后端工程师习惯于确定性——输入明确、输出确定、测试通过即可。算法工程师则习惯于概率性——80%的准确率就是不错的成绩。这两种思维方式要在同一个系统中共存，需要共同的评估标准作为对齐工具。评估不仅仅是技术手段，更是团队沟通的共同语言。

一个重要的判断是：架构师或VP至少需要投入30%的时间在非技术工作上——向上管理高管预期，横向协调业务团队，向下统一工程标准。如果100%的时间都花在技术上，项目大概率会死在组织协作层面。

第七关 · 持续运维

只有建立运维闭环，系统才能活过六个月

大多数AI项目的生命周期是这样的：第一个月充满兴奋，第二个月上线，第三个月问题开始浮现，第四到第六个月疲于修补，第七个月被项目被砍或被遗忘。

能够活过六个月的系统与死在六个月的系统相比，技术栈几乎没有区别。真正的差异在于是否建立了运维闭环。

运维闭环由三件事构成。

一，数据更新机制。知识库绝不是一次构建便一劳永逸的。保险条款会更新，理赔政策会调整，新的案例类型会不断出现。我曾有过一次深刻的教训：某个知识库在构建后半年内从未更新，结果系统引用给审核员的条款中，有一条已经被总部废止——幸好审核员经验丰富，没有直接采用。那次事件之后，我们建立了一套条款更新的Webhook机制：任何条款变动，都必须在24小时内自动触发重新分块、重新向量化、重新入库，然后自动运行评估回归测试，确保新数据不会破坏已有能力。

二，模型漂移监控。API模型会进行静默更新，你的系统表现也会随之波动。需要持续运行评估，当核心指标下降超过阈值时就触发告警。这与电商大促的监控思路相同——不是等出了事再查，而是实时进行监控。第五关提到的那次信任事故，正是因为缺少了这一步。

三，用户反馈回路。当审核员认为系统给出的建议不正确时，能够一键标注“不同意”。这些标注积累下来，就是最宝贵的迭代数据——它能告诉你系统在哪些类型的案例上表现不佳，是下一次改进的方向指引。

一个明确的判断是：在立项时就必须将运维成本纳入ROI计算。一个AI系统的月度运维成本（包括推理费用、数据管道维护、评估开销和人力成本）大约是开发成本的15%到20%。如果你无法接受这个数字，那就说明这个项目的商业逻辑本身就不成立。

写在最后

走完这七关，你会发现一个规律：越往下，越不像常规意义上的“AI工作”。

商业判断、需求定义、数据工程、组织管理、持续运维——这些事情，早在十年前做后端架构时就在做，现在只是换了一个语境而已。

这也是为什么我说“败在工程，而非模型”——但工程的起点并非编写代码，而是定义评估标准。

评估是连接业务判断与用户价值之间的铰链，是让那95%的失败率不落在你头上的唯一杠杆。

模型能力在过去两年突飞猛进，但工程的基本功——数据治理、评估体系、监控告警、持续运维、预期管理——不会因为模型更强而自动解决。恰恰相反，模型越强，Demo就越容易做，团队就越容易跳过基本功直接冲刺上线，然后在三个月后摔得鼻青脸肿。

在所有人都在追逐智能体和推理能力的时候，请先确保你的文档解析管道不会在遇到一张歪斜了15度的照片时瞬间崩溃。

你手里是否有活过六个月的AI项目？或者已经死掉、值得复盘的项目？欢迎在评论区分享它的真实面貌——我会挑选几个精彩的故事，写进下一篇内容。

下一篇预告：算法工程师在AI项目中到底扮演什么角色——从项目启动第一天到上线后的分阶段发力策略。

AI项目死在工程而非模型，工程优化是关键

第一关立项判断算不清ROI，就不该启动

第二关场景收敛评估体系是业务与技术的连接器

第三关技术选型选择最可控的方案，而非最前沿的技术

第四关工程落地两大黑洞：数据污染与用户恶意输入

第五关评测迭代评测不是纯技术工作，而是建立信任的基础设施

第六关组织协作杀死项目的不是技术，而是期望的落空

第七关持续运维只有建立运维闭环，系统才能活过六个月

第一关 · 立项判断

评估这件事是否值得用AI来做

第二关 · 场景收敛

将模糊的需求转化为可量化的任务

第三关 · 技术选型

选择最可控的方案，而非最前沿的技术

第四关 · 工程落地

从Demo到生产环境的鸿沟

第五关 · 评测迭代

从“能运行”到“值得信赖”

第六关 · 组织协作

杀死项目的不是技术，而是期望的落空

第七关 · 持续运维

只有建立运维闭环，系统才能活过六个月

写在最后

相关阅读

最新教程

最新资讯

第一关立项判断 算不清ROI，就不该启动

第二关场景收敛 评估体系是业务与技术的连接器

第三关技术选型 选择最可控的方案，而非最前沿的技术

第四关工程落地 两大黑洞：数据污染与用户恶意输入

第五关评测迭代 评测不是纯技术工作，而是建立信任的基础设施

第六关组织协作 杀死项目的不是技术，而是期望的落空

第七关持续运维 只有建立运维闭环，系统才能活过六个月

第一关 · 立项判断

评估这件事是否值得用AI来做

第二关 · 场景收敛

将模糊的需求转化为可量化的任务

第三关 · 技术选型

选择最可控的方案，而非最前沿的技术

第四关 · 工程落地

从Demo到生产环境的鸿沟

第五关 · 评测迭代

从“能运行”到“值得信赖”

第六关 · 组织协作

杀死项目的不是技术，而是期望的落空

第七关 · 持续运维

只有建立运维闭环，系统才能活过六个月

写在最后

相关阅读

最新教程

最新资讯

第一关立项判断算不清ROI，就不该启动

第二关场景收敛评估体系是业务与技术的连接器

第三关技术选型选择最可控的方案，而非最前沿的技术

第四关工程落地两大黑洞：数据污染与用户恶意输入

第五关评测迭代评测不是纯技术工作，而是建立信任的基础设施

第六关组织协作杀死项目的不是技术，而是期望的落空

第七关持续运维只有建立运维闭环，系统才能活过六个月