全栈开发性价比之王:Agent团队7×24小时评测
01 AI编程的“最后一公里”为何成为致命短板
凡是深度使用过Cursor、Windsurf或Claude Code等AI编程工具的开发者,都有一个共同感受:这些工具太依赖人工介入。 你不得不全程紧盯——它写错一行代码,你得亲手纠正;上下文一但拉长,它就迅速“失忆”,刚写好的配置,下一秒就被遗忘。 结果就是:名义上AI在替你写代码,实际上你成了AI的贴身保姆。 核心诉求由此明确:能否打造一套真正“全自动开发系统”?只需扔进需求,系统自动拆解任务、执行、验证,仅在你需要做关键决策时才发起确认。 此前我们做过一次尝试,用一段超长Prompt让AI生成一个TikTok视频生成网站。效果一般,只完成了初期约10%的工作量。 只要运行时间稍长,上下文便膨胀崩溃,逻辑开始混乱。 后来结合Claude Code最新特性与工程化思维,我们构建了AI自治开发系统2.0,并进一步升级到引入Agent Team的3.0版本。 本次实战的目标正是那个TikTok UGC视频生成平台(后更名为TKCreator)。我们要求Qwen3.5-Plus攻克剩余的80%硬骨头——支付、鉴权、视频生成API对接、自动化测试——全部拿下。02 AI自治开发系统2.0:为AI装上外骨骼
要解决AI“失忆”和“跑偏”的问题,仅靠Prompt远远不够,必须引入架构约束。 2.0版本引入了一套基于文件的状态管理系统。核心理念极其简单:不让AI记在脑子里,而是让它记在文件里。核心架构:轮班工人模型
我们将AI视为一个“轮班工人”。每个AI实例启动时都带一个干净的状态,无需知道上一个AI与用户聊过什么,只需读取交接文档即可继续工作。 这套系统的基础设施由几个核心文件组成(可直接复用): - **feature_list.json(工单系统)** 这是AI的任务清单。强制使用JSON格式,因为模型对JSON的破坏性远低于Markdown。{
"features": [
{
"id": "F-001",
"category": "backend",
"description": "实现Sora2视频生成API对接",
"status": "pending",
"passes": false
}
]
}
下图展示的是AI正在汇报它完成了feature_list.json中的F-00X任务。
- **progress.txt(交接日志)**
用于记录高层级决策和进度。例如:“2026-02-16: 鉴权模块已完成,但Token刷新逻辑存在Bug,需修复。”
- **CLAUDE.md(系统入口)**
这是AI的行为准则,每次启动时都会读取一次以恢复记忆。
# AI自治开发协议
## 核心工作流
每次启动时,必须严格按顺序执行:
1. **环境自检**:运行 `source init.sh`。
2. **状态同步**:读取 `feature_list.json` 和 `progress.txt`。
3. **任务选择**:选择优先级最高且 `status: pending` 的任务。
4. **严格验证**:修改UI后必须截图验证;修改逻辑后必须跑通测试。
- **init.sh(一键启动脚本)**
将项目关键启动脚本整合在一起,避免AI每次都需要重新摸索启动方式。
自动化引擎:无限循环脚本
仅有这些文件仍不够,还需要一个脚本来驱动AI不断循环工作。我们编写了run_autonomy.py,逻辑简单直接: 1. 读取feature_list.json,定位下一个待办任务。 2. 调用Claude Code CLI(接管Qwen3.5-Plus模型),将任务传递给AI。 3. 关键点:添加`--dangerously-skip-permissions`参数,允许AI全自动读写文件和执行命令,无需人工按Y确认。 4. 若任务成功,更新状态;若失败,回滚Git、记录日志、暂停5秒,然后进入下一轮。 这就是2.0版本的核心:将开发过程转化为一个状态机。AI不再是对话者,而是执行者。 整体逻辑运行效果如下:03 Qwen3.5-Plus:不止是平替
在2.0系统的实战中,我们特意选择了Qwen3.5-Plus。 在2.0架构下,Qwen3.5-Plus顺利完成了TKCreator大部分基础功能的复刻。 然而,当进入“最后一公里”——即生产环境对接时,问题仍然浮现。04 升级3.0:引入Agent Team,组建“AI梦之队”
在对接Sora2、Nano Banana的真实API并执行全链路测试时,我们发现单线程的2.0系统开始力不从心。 - 后端写API时,前端UI需要同步更新状态,单线程只能来回切换,效率低下。 - 测试报错后,AI往往陷入“自我怀疑”,反复修改代码,而非检查环境配置。 - 上下文虽然被清理,但任务本身的复杂度——同时涉及Python、TypeScript、SQL、Shell——让模型顾此失彼。 于是我们决定启用Claude Code近期最火爆的新功能:Agent Team。 简单来说,就是让AI组成一个团队。有一个Lead Agent(CTO)负责统筹,它不写代码,只负责分派任务;下面有几个Specialist Agent(专家)并发工作。3.0架构设计:专人专事
我们重新设计了TKCreator的开发团队: 1. **Lead Agent(CTO)**:负责读取task.json、规划依赖、进行Code Review。它只看架构,不看具体代码。 2. **@backend-integrator(后端专家)**:专注Python、FastAPI、Supabase。只负责编写API,对接Sora2/Nano Banana接口。不需要加载前端的Next.js代码,上下文非常干净。 3. **@frontend-polisher(前端专家)**:专注Next.js、Tailwind、React Query。只负责绘制UI、对接接口。 4. **@qa-engineer(测试专家)**:专注Playwright、E2E测试。它就像一位坐在旁边的测试员——打开浏览器(Headless Chrome),模拟用户注册、生成视频。关键规则:如果测试失败,它不会自行修改,而是把报错信息甩给Backend Agent:“你的接口返回500,请修复。”如何开启Agent Team?
这是一个实验性功能,需要一些配置才能激活: 1. 找到配置文件 `~/.claude/settings.json`。 2. 添加配置:{
"experimental": {
"agent_team": true
},
"permissions": {
"auto_approve_tools": ["TeamCreate"]
}
}
也可以在终端设置环境变量:`export CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1`
整体逻辑运行效果如下:
3.0实战Prompt
开启后,直接将下面这段Prompt丢给Claude Code(Qwen3.5-Plus后端):# Role & Objective
你现在的角色是 **TKCreator项目的CTO**。我们要升级到 **3.0 Agent Team架构**,完成生产环境冲刺。
# Team Structure
请初始化以下Agent Team:
1. **Lead(你)**:负责统筹。
2. **@backend-integrator**:专攻FastAPI,对接Sora2/Nano Banana真实接口(文档见附件)。
3. **@frontend-polisher**:专攻Next.js,优化UI。
4. **@qa-engineer**:使用Playwright进行E2E测试。如果测试失败,直接向Backend Agent报错。
# Execution Rules
1. **Parallel Execution**: 让后端写接口的同时,前端优化加载状态。
2. **No Mock**: 必须调用真实的AI模型接口。
3. **Local Storage**: 暂时将生成文件存放在 `/public/uploads`。
效果非常惊艳。
从终端日志可以看到:Lead Agent迅速分配任务,后端Agent正在编写FastAPI的Polling Service,轮询Sora2的生成状态;前端Agent同时修改Task Card组件,新增了一个“生成中”的骨架屏。
两者几乎同时提交了代码。
紧接着,QA Agent启动。它自动打开了浏览器,注册一个新用户,充值积分,点击生成视频。一分钟后,测试报错:“Sora2 API返回401 Unauthorized”。但QA Agent没有胡乱修改代码,而是直接在日志中@了Backend Agent:“API Key似乎未生效,请检查.env加载逻辑。”Backend Agent秒回:“收到,正在检查config.py。”
这种“团队协作”的感觉,简直就像真实的人类开发小组。
经过大约40分钟的“团队协作”,TKCreator的生产环境版本部署完成:
- 视频生成:畅通。Sora2的视频成功生成并下载到本地。
- 图片生成:畅通。Nano Banana的商品图完美展示。
- 积分系统:畅通。每次生成消耗20分,余额不足时无法生成。