AI Agent自动运营公司早会效率对比评测

2026-05-29阅读 0热度 0

AI新闻

同一赛道，同月注册的两家初创公司。

早上九点，第一家公司运营负责人还在翻昨天的客户工单，分析师正重新搭建上周崩掉的数据面板，创始人主持一场搁置三天的客诉晨会，没人给出解决方案。

第二家公司创始人，那时已经在迭代产品了。

夜间，智能体自动完成工单分类，更新面板，从通话录音中识别出隐藏的流失信号。创始人早晨扫一眼简报，问题已被解决，他把精力转向下一步。

这是 Stepan Gershuni 在 cyber.fund 发布的创始人指南开篇。核心论点直击本质：真正的分水岭不在团队规模，而在组织学习速度与迭代效率。每天快一小步。几周后差距显现。几个月后，只剩一家存活。

How to Build an AI-Native Startup — cyber.fund 创始人指南封面

传统创业 vs AI 原生创业的组织结构对比：前者是创始人与多人的全网格协调，后者是少数人通过 Context·Agents·Evals·Skills 驱动

01 先画地图

第一步，不是选工具，不是挑模型，而是绘制工作地图。

列出过去两周公司内所有重复性工作：客户通话整理、线索调研、工单分类、产品测试、候选人初筛、内容审核、竞品监控……创始人日曆上通常堆积 20 到 40 项类似任务。诚实列出来会发现，其中 10 到 15 项已沦为无意识的例行公事。

按自主程度分级。

最底层是纯人工——战略决策、核心招聘、法律签署，这些不动。往上一层，AI 起草人来审批，比如投资人更新、合同审查、定价页优化。再往上，AI 执行人来监督，入站分类、会议记录归档、线索丰富可归入此类。最高一层是在明确限制内自主跑——竞品监控、夜间报告、简单异常检测。

一个反直觉的规律：频率压倒重要性。

就像健身房最有效的训练计划，往往不是最科学的那个，而是你能每天坚持的那个。每周写一次的投资人更新，一年只有 52 次机会发现缺陷。每天跑十次的工单分类，一年有 3650 次机会让评估系统捕捉失败模式。低频任务即便更重要，你永远攒不够样本判断质量。

枯燥的工作流通常胜出。频率碾压光鲜。

他还提到 C.H. Robinson 的案例，警示价值极高：他们尝试将每日 10,000 封邮件的入站分类完全推向自主，结果退回至 AI 起草人审批。量太大，单条错误路由代价看似微小，但藏在总量里根本不可见。

一句话：如果团队自己都说不清什么算好，那这个流程还没到交给机器的程度。

「优先自动化」区域：横轴是每月消耗时间，纵轴是复利适配度。测试生成、通话整理落在高优先级区，董事会备忘录、战略招聘留给人工

02 把记忆装进代码库

这段是整个文章最精彩的部分。

他将 context 定义为「AI 原生创业公司的操作记忆」——公司对自身的一切了解，放在智能体能读取的位置。

看老厨师做菜就能理解。他用的锅、灶、油、盐，和隔壁新店一模一样。但他知道这口锅哪个位置火最旺，知道今天姜水分偏大所以要多煸一会儿。这些不是「技术」，是他和这批食材、这口锅之间积累的默契。

Gershuni 说的 context 就是这个。模型是锅，context 是你和你业务之间的默契库。同一个模型，读了你三个月客户通话提炼的公司，和一个刚接入 API 的公司，输出质量天差地别。模型会换代，就像锅会升级。但那层「知道客户说再考虑考虑其实意思是价格太高」的提炼，是跟着你走的。

他建议从 Git 仓库起步——有版本历史，可比较差异，人和智能体都能读。第七天的工作区可以只有几个文件：CLAUDE.md、context/company.md、context/product.md、context/customers.md、context/lessons.md。控制在 40-60 行手写内容，紧凑的「应该避免什么」清单，比 400 行 AI 生成的内容更有用。

一个值得关注的数据：Anthropic 的 MCP 代码执行工作展示了一种「服务器文件夹」加载方式，将 context 占用从约 15 万 token 降到约 2000 token——削减了 98.7%。省成本到这种程度，财务看了会想请你吃饭。

Context 系统架构：来自 CRM/日历/支持工单等外部系统的连接器，加上内部生成文件（决策、教训、规格文档），加上数据库/数据流，经过权限·规范化·溯源处理，输出为「Agents Content Bundle」

一件常被忽略的事：务必把原始数据和提炼数据分开。通话录音是原始数据；那次通话里做的决定、客户提出的反对意见、续约风险——这些是提炼数据，是智能体真正需要查询的内容。两者混在一起，你会被录音淹没，永远搭不起那一层真正有用的东西。

然后是溯源。每个智能体的总结，都必须能追溯到源头——哪个录音，哪张工单，哪个数据库行。没有溯源，公司里会滋生大量无法核实的「听起来很对」的总结。第一次有人发现自信满满的答案是错的，整个智能体层的信任就崩塌了。

有溯源，争议一秒内解决——点进去，看源头。

03 选最轻的那个

做完 context，很容易想把所有工作都塞给智能体跑。

千万别。

他说得很直接：不是所有流程都需要智能体。最好的 AI 原生系统，是脚本、AI 辅助人工、确定性工作流、和智能体的混合体，用最轻的工具处理当前的工作。

步骤确定的，用脚本就够了——导出报告、转 CSV、跑测试、校验 JSON，别浪费智能体算力。输出需要判断才能放出的，比如投资人更新和定价文案，让AI 辅助人工。步骤已知但链条长的，用工作流串联。只有路径真的无法预设时，才请智能体上场：排查生产 bug、调研市场、处理复杂客户案例。

自动化选择矩阵：纵轴是风险高低，横轴是路径是否已知。高风险+已知路径=工作流；低风险+未知路径=智能体；HARNESS 六步贯穿所有路径

每个智能体外面，必须套一个防护层（harness）。六个阶段：预检（在消耗 token 前检查权限）→ 计划（拆解任务，暴露步骤）→ 审批（人或评判模型把关）→ 执行 → 验证 → 记录。

防护规则要写进代码和配置，不能只写在提示词里。提示词里写「不要删生产数据」不是安全边界。

2025 年有个 Replit 事件，一个编程智能体在会话途中清空了生产数据库。那是血的教训：提示词指令不是安全边界，只有代码层面的限制才是。

04 什么叫做对了

技能和评估（evals）是整个系统的引擎。前面都是铺垫。这里才是真正产生复利的地方。

技能是一套可复用的指令加示例，用于一个重复性任务。手跑两遍，然后把重复的部分编码。每个技能需要：范围、输入、需要加载的 context、步骤、输出格式、示例、升级规则、负责人、运行日志。

如果文件没说它接受什么、返回什么、什么时候求助、谁来维护，那它是个很长的提示词，不是一个技能。

评估是让技能复利的引擎。一旦有了可用的 eval，提示词调整就变成可选项了：一个小型反思模型提出改动，eval 给改动排名，最好的那个自动上线。没有 eval，每次迭代都是一场口味之争。

他用客户通话整理举例：拿 30 个历史通话，让业务负责人标注每个应该提取什么。机械检查——名字对不对、金额和合同匹配吗、跟进日期在正确的周内——这些是确定性的，直接判断。LLM 评判负责剩下的部分：这份通话简报听起来像那次通话吗？

跑大约 50 次之后，你会发现两个固定的失败模式。通常是那两件你之前没想到的事，不是你担心的那些问题。

要监测的核心指标：接受率。低于约 70%，技能还没准备好提升自主程度。接受率低的时候，直觉是改提示词——几乎从来不是这个问题。通常是四件事：运行时加载更多 context、收窄技能范围、文件里加更多已完成的示例、或者为智能体不该接的任务写更清楚的升级规则。

05 创始人先上

要让团队转向新的运作方式，最快的路是创始人自己先展示。

不是在会议室里讲 PPT，是在公司的真实 context 下现场演示。展示从日历、收件箱、Slack 过夜拉取的晨简报；展示昨天通话的客户合成；展示智能体根据需求文档开的测试 PR；展示从最新指标包自动生成的投资人更新草稿。

Jack Dorsey 据报道在 Block 围绕这些工具重组之前，每天早上花几个小时亲自使用这些工具。领导层亲自用过，才有了那次效率重组的决定。

入职也要变。每个新成员在第一次会话结束时，都要有一个当天可以用的输出——清理后的客户简报、支持宏、测试 PR、定价页评审。Ramp 的 Glass 工具靠这个规则，从每天 20 个日活用户涨到了三个月内的 700 个。不产生真实工作的培训，下周就被忘了。

招聘门槛也高了——因为有些以前需要人的工作，现在是一个技能。招人时，测的不是知识，是判断力。给候选人一个在给定时间内靠人工做不完的任务，看他们怎么指挥智能体做完。你招的是判断力、品味、和当智能体走偏时的纠错能力。

这些能力，以前就很值钱。现在，更值了。

06 每周进化

AI 原生创业公司每周改进一次自己的操作系统。

市场学习外环：通话·产品使用·工单·竞品·账单数据 → 市场信号 → 假设 → 智能体实验 → 人工决策 → 产品/流程变化 → 循环

他把循环分成内环和外环。内环让现有工作更好——降低每次运行的成本，缩短周期，减少事故，减少审查时间。外环寻找下一步——新客户群、产品方向、竞争对手动态、流失风险。后台智能体全天候给外环输送候选项，人来决定追哪个。

有一个硬规则：任何代码都不能自动合并，没有智能体可以直接写入生产环境。就连 Cursor，在 2026 年初大规模跑云端自主智能体时，合并前仍然保留了人工审查门槛。这个门槛，是让其他一切能安全扩展的前提。

真正的天花板在哪里？他说得很清楚：不是模型能力，是能不能写出 eval。如果你能把「什么是好输出」编码成二元标签、评分标准、或者几个业务指标，循环就能在整个公司的规模上运转。如果不能，再强的模型也填不了这个空。

智能体能力很少是真正的瓶颈。如果你能把好输出编码成标签、评分标准或业务指标，循环就能以整个公司的规模运转。如果不能，再强的模型也没用。编码能力有帮助，但不是瓶颈；一个能可靠标注输出好坏的领域专家，可以跑完整个循环。

07 护城河是什么

这篇文章最后一句话，值得反复读。

「每个人都有同样的模型；操作系统是秘密武器。」

说得干净。但读完后的第一反应，不是「对，我要赶快去做」，而是——真的这么简单吗？

Gershuni 说护城河是纪律——画地图、搭 context、写 eval、每周跑循环。这个不完全认同。他把问题框定成了「执行纪律」，但漏掉了一个更根本的东西：判断什么值得编码，本身就是一种稀缺能力，这个能力没法被方法论覆盖。

大多数创始人高估自己做的事的战略含量。他们不是不知道 L1 到 L4 的分法，是不愿意承认自己 80% 的时间在做 L3 的事。瓶颈不是纪律，是自我认知的诚实度。

而这个东西，没有任何框架能替你解决。

还有一件值得思考的事：如果操作系统真的是护城河，那是不是意味着——一旦某家公司的 context 和 eval 积累到临界点，后来者就永远追不上了？不是赢家通吃市场份额，是赢家通吃学习速度本身。先跑起来的公司，每天比你多学一点，而且学习速度还在加速。这不是线性差距，是指数差距。

历史上每一个「指数差距不可逆」的论断，最后都被某种范式跳跃打断过。这次是不是不一样，很难说。

可以确定的是：如果你今天还在争论「要不要用 AI」，你争论的已经不是工具选择的问题了。不参与的代价，每过一周都在变大——大到某个时间点，你可能连代价有多大都看不见了。

资料来源：cyber.fund · Stepan Gershuni (@cyntro_py) · How to Build an AI-Native Startup · May 2026