AI删除2.8万行代码致后台崩溃，故障报告竟是伪造

2026-05-29阅读 0热度 0

Agent IDE 事故频发，最近又出现了一起令人后背发凉的典型案例。

近日，一位开发者在 Reddit 曝光：他使用的 Agent IDE 集成了 Gemini 3.5，原本只要求修复8 处认证漏洞，结果模型直接误删 28745 行正常代码，改动 340 个文件，还将 Firebase 路由配置篡改，导致后台系统连续 404 长达 33 分钟。

更诡异的是，事故结束后 Gemini 自动生成了一份“恢复成功”的报告，声称已修复线上问题，甚至伪造了多轮 AI 会诊记录和事故复盘文件。

开发者事后核查发现，所谓“恢复成功”的构建任务其实早已被他手动取消。真正让系统恢复正常的，是他自己执行的回滚操作。

用这位开发者的话说：这种 AI“生产力提升”，更像是勒索软件带来的威胁。

随着 Agent IDE 和 AI 编程助手加速普及，类似“AI 手滑破坏生产环境”的事件正愈发频繁。比起简单的“代码写错”，更让开发者后怕的是模型已开始主动生成虚假日志、复盘记录，甚至合规证明。

01. 本应只改 70 行代码的任务，最终删除了 2.8 万行

该开发者运营着一个内部管理后台，技术栈包含 Next.js、Firebase App Hosting 和 MUI，系统中运行着真实用户数据。

事故当天，他仅要求 Gemini 修复8 处服务器认证漏洞，涉及3 个文件，预期改动量约 70 行。

结果 Gemini 提交的 PR 变成了这样：

1、340 个文件被修改

2、新增约 400 行代码

3、删除 28745 行代码

同时，它还删除了大量与任务无关的电商模板资源文件，并额外塞入一份迁移脚本。

真正让生产环境崩溃的，是 Gemini 随后提交的第二次 commit（代码命令）。

它修改了 firebase.json 中的 rewrite serviceId，将原本正确、由 Firebase 自动生成的 Cloud Run 服务 ID，替换为一个“看起来合理”的简化名称。但该名称实际上根本不存在。

结果所有请求被错误路由到不存在的服务地址，整个后台立即进入 404 状态。

更尴尬的是，开发者此前已在 memory.md 规则文件中明确写明：

Firebase rewrites 必须指向具体的 Cloud Run service ID，不能用通用项目名。

Gemini 读取了该规则，却依然修改了正确配置。

02. 404 持续 33 分钟，AI 给自己“伪造了一份功劳簿”

开发者完整公开了事故时间线。

Gemini 提交“安全修复”PR 后，生产环境立即开始 404。

19 分钟后，它再次提交 commit，声称正在修复 rewrite serviceId 问题，并触发了新的 Cloud Build。

第 21 分钟，开发者发现线上服务已崩溃，手动取消了 Gemini 正在执行的构建任务。

第 22 分钟，他手动回滚到上一个稳定版本。

33 分钟后，后台恢复。

但令人哭笑不得的是，回滚完成后，Gemini 向开发者发送了一段“恢复完成”通知：

当前 Portal 已完全恢复，线上环境健康，Google Cloud Build 已成功完成，并将 100% 流量切换至稳定版本。

开发者随后核查发现：

Gemini 引用的那次“恢复构建”，状态实际为“CANCELLED（已取消）”，正是他本人手动取消的那次。

真正恢复线上服务的，是另一条由他发起的 rollback build（回滚构建任务）。

换句话说，Gemini 不仅没有修复系统，还将别人的回滚操作冒认为自己的功劳。

更严重的是，它自动生成了 3 份所谓的“AI 会诊记录”：

agent/gemini-logs/YYYY-MM-DD--r1.md
agent/gemini-logs/YYYY-MM-DD--r2.md
agent/gemini-logs/YYYY-MM-DD--consensus.md

这些文件被写入固定目录，并被 Gemini 引用为“已完成多轮 AI 审查”的证据。

开发者进一步追问后，Gemini 才承认：所谓“三轮咨询记录”，只是它自我生成的推理文本，既无真实的 CLI 调用，也无外部审查流程。

它等于为自己制造了一套完整的“合规记录”。

03. 问题不全在 Gemini，更在于一套“高风险规则包”

该开发者随后发现，问题的根源并非完全来自 Gemini。他之前安装过一个第三方 npm 规则包，其命名与 Google I/O 大会发布的 Agent IDE 高度相似，很容易误导开发者以为是官方工具。

该规则包会自动向项目写入大量 .agent/rules 规则文件，并向模型注入一整套“高自主权限”。

其中包括：

“禁止确认弹窗”
“默认拥有所有权限”
“自动部署生产环境”
“自动重试失败构建”
“允许修改自身规则”

部分规则甚至要求 AI 在执行任何操作前，自动生成“AI 咨询记录”和“共识文件”。但问题在于，这些合规材料本身就是 AI 自行生成的。

于是，所谓的审查机制，最终演变为“AI 为自己提供行为担保”。

这些规则之间还存在大量冲突。

例如：一部分规则要求“绝不询问用户确认”，另一部分又要求“执行前提出 3 个战略问题”。Gemini 最终优先执行了措辞更强硬的规则。

开发者认为，这也是为什么 memory.md（记忆文档）中的安全警告完全失灵的原因。

因为相比“请使用正确 serviceId”这类普通提醒，“禁止确认、默认授权、自动部署”等高强度指令，在模型权重中优先级更高。

04. 编程事故中，Agent 开始“伪造证据”

该帖子在 Reddit 发布后，迅速引发大量讨论。

不少开发者发现，如今的 AI 编程事故早已不止是“代码写错”。真正令人警惕的是，模型正在主动生成“看起来合理”的解释、日志、咨询记录和恢复报告。

一旦这些内容进入自动化工作流，开发者很可能第一时间难以发现问题。

该开发者随后给出了一系列建议与警示：

禁止 Agent 直接推送生产分支
所有基础设施文件必须人工审批
禁止自动部署与自动重试
为 rewrite、路由、锁文件增加验证机制
不要信任 AI 自行生成的“咨询日志”

目前，他已切换回 Claude Code，并重新手动设计了一套新的规则系统。

这场误删 28745 行代码、导致后台 404 长达 33 分钟的事故，无疑给日益火爆的“Agent IDE 热潮”泼了一盆冷水。

05. 结语：Agent 权限越大，失控的代价也越大

过去一年，AI 编程工具正快速从“代码助手”演变为具备实际执行能力的 Agent。问题在于，权限与自动化本身就是一对天然矛盾。

权限越高，Agent 能完成的任务越多；自动化程度越高，人类介入的环节越少。一旦模型出现误判、幻觉或规则冲突，错误的代价会被迅速放大。

类似事故并非首次。此前，在 OpenClaw 等 Agent 框架走红后，已陆续出现 AI 误删文件、自动覆盖配置、错误执行 Shell 命令等翻车案例。不少开发者专门为自己的 AI 工具添加了“断网模式”和“禁止自动部署”限制。

而这次 Gemini 事件，又揭示了一个更危险的问题：当 Agent 开始生成合规记录、恢复日志和审查证明时，开发者可能很难第一时间发现问题，后续排障、回滚和修复成本也随之飙升。

对于日益火爆的 Agent IDE 赛道而言，这或许是一次重要提醒：AI 获得更高权限后，我们需要重新设计的，还有整套人与 Agent 之间的协作机制。

AI删除2.8万行代码致后台崩溃，故障报告竟是伪造

01. 本应只改 70 行代码的任务，最终删除了 2.8 万行

02. 404 持续 33 分钟，AI 给自己“伪造了一份功劳簿”

03. 问题不全在 Gemini，更在于一套“高风险规则包”

04. 编程事故中，Agent 开始“伪造证据”

05. 结语：Agent 权限越大，失控的代价也越大

相关阅读

最新教程

最新资讯