Grill-me、Trellis、Superpowers三大场景实测对比

2026-06-20阅读 0热度 0

其他

场景概述

此前我撰写过一篇关于利用 Superpowers 构建高效 AI 开发工作流的实践分享，在公司的正式交付场景中，Superpowers 的稳定性得到了充分验证。但近期在 L 站上注意到，不少开发者开始频繁讨论 grill-me 与 Trellis 的组合方案。表面看来，这套搭配更为节省 token，也更轻盈灵活。然而深入思考后发现，结论未必如此简单。

本文旨在将这三个工具放在同一坐标系下讲透：各自的定位、适合的项目阶段、安装与组合方式，以及不同场景下的选择依据。与其写成一篇纯教程，我更希望把它写成一则使用判断指南。对于多数开发者来说，真正的难点不在于记住名称，而在于判断何时启用、如何搭配、以及哪些场景根本无需依赖。

核心原则始终是：使用 skill 不是为了炫技，而是为了将需求校准得更精确，将执行偏差压到更低。

先厘清一个前提：真正负责代码编写的仍然是 Codex / Claude Code / Cursor 背后的模型，grill-me、Trellis、Superpowers 只是指导模型按特定工作流程去执行。差异不在于谁来执行，而在于按什么样的流程来执行。

结论先行

用一句话概括各自的职责：

grill-me 聚焦需求盘问与澄清
Trellis 负责长任务执行与流程接力
Superpowers 覆盖更重的正式交付流程

这三者并非相互替代，而是三种不同重量级的工作方式。

更精确的判断逻辑如下：

小问题无需动用任何 skill，直接裸对话即可
需求模糊时，启用 grill-me
需求明确但任务冗长时，接上 Trellis
任务体量大、协作环节多、需要文档与审计痕迹时，再上 Superpowers

强调一点：有些任务本身过于简单，硬套一套流程反而拖慢节奏且浪费 token。因而裸对话不是偷懒，而是特定场景下最高效的选择。

逐一拆解这三个工具

或许不少同学对 Superpowers 已比较熟悉，但对 grill-me 和 Trellis 还较为陌生。先简要介绍它们各自究竟是什么。

grill-me 是什么

grill-me 本质上是一个需求澄清型 skill，取自 Matt Pocock 的 skills 仓库。最大特色是极其轻量，整个 skill 仅由寥寥数语构成，效果却出奇的好。

它的核心能力不是直接协助写代码，而是通过层层追问，一点点逼出我们尚未想清楚的环节。在实际使用中，它会问得极细，细到边界条件、依赖关系、验收标准这些初始易被忽略的维度，都会被它提前刨出来。

一个具体案例中，用 grill-me 盘问某个复杂项目级功能时，它连续追问了 20 多个问题。而 brainstorming 工具大约只问了 7-8 个问题。对比可见，grill-me 的提问风格偏向“抬杠式”抠细节，而 brainstorming 则更聚焦核心工程问题。

grill-me询问过程:

brainstorming 询问过程：

在一个测试项目中，最终 100+ 测试全部通过。当然这不保证每次都能复现，但至少说明前置盘问的切实价值。由于它极其精简，能将尽可能多的上下文空间留给后续的逻辑处理，这本身就是一项巨大优势。

安装步骤

最省力的方法是直接将仓库地址丢给 Claude Code 或 Codex，让它按照 skill 的安装流程自动完成配置。

使用方式

安装完成后，在需要澄清需求的时刻启动该 skill 即可。在支持 skill 的工具中，可通过 skill 选择器或自然语言触发；不同工具的触发方式略有差异，核心逻辑一致：它会开始连续提问，逐步把需求问清楚。

问话结束后，务必让它将结果写入计划文档，随后清空上下文再执行，以此保持最干净的执行环境。

Trellis 是什么

Trellis 更像是一套项目级 workflow，源自 Trellis 仓库。它并非一个简单的 skill，而是一个 npm CLI 加一套项目级文件，本质上是一个框架。它能将需求、任务、执行、上下文等信息串接起来，让长任务沿着一条稳定的路径推进。

核心优势在于 progressive loading（渐进式加载），设计目标就是减少不必要的 context 占用。它只在需要时加载对应的 spec，不会一次性将所有内容塞入 context。

Trellis 的用法可以理解为：它不是替我们问需求的工具，而是将一个项目改造成适合 AI 长期接力开发的结构。它会在项目中维护以下内容：

.trellis/spec/ - 项目规范、技术约定、编码标准
.trellis/tasks/ - 每个任务的 PRD、验收标准、状态、review 记录
.trellis/workspace/ - 个人工作日志、决策记录、handoff
.trellis/workflow.md - 开发流程
根据平台生成对应目录，比如 .codex/skills/（Codex）、.claude/skills/（Claude Code）、.cursor/（Cursor）等
AGENTS.md 或 CLAUDE.md 等 - 给对应平台的项目入口说明

因此它和 grill-me 的关系是：grill-me 把本次要做什么问清楚，Trellis 把问清的内容沉淀为任务，然后按流程执行、检查、收尾。这是一个顺滑的组合方式。

安装步骤

Trellis 通过 npm 安装：

npm install -g @mindfoldhq/trellis

如果官方文档要求 beta 版本，则按文档版本安装。随后在项目目录中初始化：

trellis init --codex -u kaka

初始化时会询问使用的平台（Codex、Claude Code、Cursor 等），然后自动生成对应的文件结构。具体生成哪些文件取决于所选平台。

使用方式

按 Trellis 文档所述，0.5 版本之后更倾向于 skill-first。在支持的平台中，可以通过类似 /start 或 /trellis:start 的方式加载项目上下文，不同平台的触发方式略有差异。加载后，它会根据当前任务自动加载对应的 spec 和上下文，而非一次性全量灌入。

Superpowers 是什么

此处不再赘述，还不熟悉的同学可参考之前那篇《Claude Code进阶：用Superpowers打造靠谱的AI开发工作流》。简单来说，Superpowers 更重。它不局限于问清楚或跑起来，而是将 brainstorming、plan、execute、test、review 等环节全部纳入，形成一套更完整的交付流程。

这也是为什么它在公司正式交付场景中格外合适。很多时候我们需要的不是最快写完，而是让其他人能看懂、能对齐、能 review、能追踪。你可以将其理解为一种更完整的工作法。它的优势在于稳定，尤其适合新手、复杂协作、需要可追踪计划的任务。它的短板也很明显：上下文占用多、流程感重、启动慢，有时会让模型花过多精力在遵守方法论上，而非直接理解任务本身。

所以不能简单地归纳为“太重不好用”。更精确地讲，它偏向于治理复杂度，而非单点提效。

为什么需要 skill 介入

这一点很多人容易忽略。在 AI 开发中，不同模型生成的代码质量差异明显。有些模型需要反复复盘多次才能逐渐趋近目标，有些更强的基本上一次性通过。但无论模型强弱，只要我们在前期将需求描述得过于粗糙，AI 依然极易理解偏。

尤其在开发功能时，如果只是简单抛出一个目的就让它动手，它很可能将“想做什么”理解为“怎么做”，最终输出与我们真实意图仍有差距。此时，grill-me 这类 skill 的价值就凸显出来——它不是替我们开发，而是帮助 AI 将需求校准得更精准。

在项目中的实际用法

假设当前主要在 Codex 环境中进行开发，我倾向于这样理解它们的角色：

使用 grill-me 的时候

我会先让它把需求盘清楚，暂不急于写代码。它适合用来做前置澄清，尤其当我自己也还没完全想透时。grill-me 最适合使用的场景可以归纳为：

对需求尚未完全想透
担心遗漏边界条件
希望先把问题问完整
不想一开始就启动编码

它的优势不在于能做更多，而在于先把问题问准。

使用 Trellis 的时候

当需求已经比较明确，但后续还有一段较长的执行过程时，我会考虑让 Trellis 接棒。它更像是一个长程执行器——前面如果已经将目标、边界、约束弄清楚，那么 Trellis 就适合接着跑。它不是用来替代思考的，而是用来承接思考后的执行。

使用 Superpowers 的时候

如果是公司内部的正式交付，我会更倾向直接启用 Superpowers。因为这类场景天然要求文档、对齐、review、提交说明，流程重一点不是缺点，而是刚需。这也是后续越来越认可它的地方。在公司场景里，很多时候不是写出来就结束了，还要让领导能大致理解、让同事能对齐、让 review 能通过、让交付能说清楚。所以它的“重”，不仅仅是步骤多，而是将许多隐性要素显式化了。

处理小任务的时候

如果只是改一个 bug、补一个函数、调整一段小逻辑，我通常连 skill 都不想开。直接裸对话、直接编码，反而最省事。这一点需要单独拎出来说，因为它极易被忽视。很多人一上来就想找到一个最强工作流，但实际开发中相当一部分任务根本不需要 workflow。小任务最怕的不是能力不够，而是流程太厚重。

grill-me + Trellis 的实际配合

以接到一个需求为例，我不会直接让 AI 开干，而是先用 grill-me 盘问一轮。grill-me 会先将目标、边界、非目标、验收标准等要素问清楚。问完之后，让它将结果整理成一个简洁的需求摘要或计划。确认无误后，再将这份确认结果交给 Trellis，让它按项目流程继续推进：

读取项目上下文
加载相关 spec
开始实现
跑测试
做 review
最后输出提交说明

这样做的好处是：前面把需求问准了，后面就不容易跑偏。grill-me 问得越细，后续的计划越清晰，执行时的返工就越少。而且因为 grill-me 极其精简，不会占用太多 context，所以 Trellis 接手时仍有充分空间去加载项目 spec 和执行逻辑。

安装不等于冲突

有同学会问：安装了 grill-me 和 Trellis 是否必须卸载 Superpowers？反过来也一样？它们能否共存，是否会冲突？

这几个工具可以同时安装，通常不会冲突。真正容易出问题的不是安装，而是同一轮任务中同时启用多个流程。这一点特别值得讲清楚，因为很多人会将“同时安装”与“同时使用”混为一谈。

安装是静态的，互不影响
使用是动态的，容易互相抢节奏

真正的混乱不是装了谁，而是这一轮到底按谁的流程走。比如既让 Superpowers 进 brainstorming，又让 grill-me 连续追问，再让 Trellis 接管执行，结果就是流程重叠：问题重复、计划过度冗长、执行前迟迟不动手、review/plan/execute 边界混乱、上下文被流程说明占掉太多。

因此更合理的做法是都安装，但按场景只主动点名一个主流程。可以这样划分：

小任务：不用 skill，直接做
需求不清楚：用 grill-me
需求问清楚后要长时间执行：用 Trellis
高风险/复杂协作/需要规范计划：用 Superpowers

如果想组合使用，最好分两轮：先用 grill-me 问清楚需求，再明确说明基于澄清结果用 Trellis 执行——而不是一上来就把三个工具同时丢进去。推荐思路：先定主流程，再让其他工具做辅助，不要让多个 workflow 在同一阶段争夺主导权。

为什么 grill-me + Trellis 会显得更轻

这套组合之所以显得轻量，主要在于它将工作拆成了两段：先把需求问准，再让执行器长跑。它不要求每个任务都走一套厚重的流程，因此更适合高频日常开发。

从 token 消耗的角度来看，差异会更加明显：

grill-me 的 token 消耗
grill-me 极其精简，仅由几句话构成，几乎不占用 context。它能把尽可能多的上下文空间留给后续逻辑，这本身就是巨大优势。grill-me 问得越细，后续计划越清晰，执行时返工自然越少——这一点非常实在。

Trellis 的 token 消耗
虽然 Trellis 是一个完整框架，但它的 progressive loading（渐进式加载）设计使其实际使用时并不会特别耗 token。它只在需要时加载相关 spec，不会一次性将所有内容塞入 context。小任务只加载小 context，大任务才加载大 context。

Superpowers 的 token 消耗
Superpowers 的每个步骤都有独立 prompt：/brainstorming 自有其 prompt，/writing-plans 自有其 prompt，/verification-before-completion 同样自有其 prompt。这意味着：优点在于每个环节都有专业指导，质量有保障；缺点在于如果每次都按完整流程走，小任务也会显得 token 成本偏高。

因而从 token 效率角度来看：grill-me + Trellis 按需加载，轻量高效；Superpowers 全流程覆盖，token 消耗较大。这也正是 L 站上许多开发者认为 grill-me + Trellis 更适合日常开发的原因。

但这不是绝对的

grill-me + Trellis 更轻、Superpowers 更重这个说法，在宏观上成立，但并不绝对。更精确地讲：grill-me + Trellis 更轻，是因为它将工作拆成两段；Superpowers 更重，是因为它将计划、执行、测试、review 全部纳进一个更完整的流程中，前置成本更高，token 也更容易被消耗。

因此 L 站上所谓的“Superpowers 太重了，轻量开发用 grill-me + Trellis”这个判断，对大多数个人开发场景确实成立。但还是要强调：轻量 ≠ 更好，重流程 ≠ 更差。它们只是分别适用于不同类型的任务。

为什么 Superpowers 会显得重

因为它默认将许多步骤显式化了。像 brainstorming、plan、execute、test、review 这一套流程，放在复杂任务中非常好用，但放在一个小 bug、一个小功能上，就显得有些冗余。所以我并不认为“重是坏事”，它只是更适合需要治理复杂度的场景。

如今模型本身已经相当强大，很多时候缺的不是让它能做事，而是让它别带着错误假设就开工。这也是 grill-me 的价值所在——它只做最关键的前置动作：把需求问清楚，不会像 Superpowers 那样将整个流程都压上去。换句话说，Superpowers 的价值不只是让 AI 能做事，而是让 AI 按照一个更稳定、更可审计的方式做事。

场景判断方法

实际的分法很简单：

需求模糊，但任务不大：grill-me
需求问清楚后，要长时间改代码：grill-me + Trellis
任务体量大、风险高、需要审计和对齐：Superpowers
只是改个小 bug、补个函数：都不用，直接做

举个例子，在公司里每个功能都需要写文档、三方对齐、需求评审、code review、提交说明。领导下需要了解每个功能的变动、新增、逻辑交互等信息。这种情况下，我会更倾向于使用 Superpowers，因为它能将所有这些流程要求都兜住：brainstorming 阶段产出需求文档，plan 阶段产出技术方案，review 阶段产出 code review 记录，提交说明则可以从整个流程中自动生成。所以在公司正式交付场景中，Superpowers 非但不冗余，反而恰到好处。

最终可以收束为这样一个结论：轻量开发，grill-me + Trellis 更顺；正式交付，Superpowers 更稳。

最后想说的

L 站上“Superpowers 太重了，轻量开发用 grill-me + Trellis”这个说法，大致正确。但它隐含了一个前提：我们追求的是效率与手感，而非全流程治理。而在公司正式交付中，很多时候本来就需要流程。这种情况下，Superpowers 非但不冗余，反而恰到好处。

因此我现在的倾向是将这三者视为不同场景下的工具：grill-me 负责问清楚，Trellis 负责接着跑，Superpowers 负责将正式流程兜住。真正重要的不是把所有工具都装全，而是知道在哪个场景下该让哪个工具当主角。