开源AI智能体团队管理工具:PilotDeck桌面版测评
5 月 25 日至 29 日,面壁智能与 OpenBMB 联合举办「端侧大模型开源周」,每天解锁一个端侧大模型的杀手锏。端侧大模型的顶峰,不只在冰山一角,而在整座冰山。今天是开源周的第四弹:智能体操作系统(Agent OS)PilotDeck。
仅凭语言沟通,一天内用端侧模型做出一个能跑在本地的「塞尔达」式的开放世界,你能想象吗?
你只需在电脑上输入一段想法:
PilotDeck 收到命令后,就能快速生成一个元素丰富、可交互的 3D 塞尔达世界:
不仅如此,它还能与面壁智能的语音大模型 VoxCPM 联动,一键生成支持 30 种语言的多语种播客。
由于篇幅有限,仅展示几门语言
让这一切从「想法」变成「现实」的,正是由清华大学 THUNLP 实验室、面壁智能、OpenBMB 与 AI9stars 联合研发并开源的全新智能体操作系统
PilotDeck!
PilotDeck 天生就是端侧模型的好搭档:一方面,PilotDeck 可以接端侧模型作为子 agent 的执行模型,实现端云协同;另一方面,PilotDeck 可以自动部署端侧模型来完成用户给的任务,比如在多语言播客任务中会部署 VoxCPM 来生成语音。
除了上述 case,PilotDeck 还可以手搓手机陀螺仪小游戏、做模型训练、写行业白皮书、剧本创作……等等。只有你想不到,没有 PilotDeck 做不到!
但这还不是 PilotDeck 最厉害的地方,它真正的厉害之处在于:以「WorkSpace」(工作舱)为核心驱动设计,可以帮助用户——
同时操作多个任务,且每个任务之间互不干扰
方便长周期创作,支持 AI 智能体 24 小时在线工作
账单清晰,成本可控
……
PilotDeck 的研究目标是:
Pilot Every Agent from One Deck
(从一个桌面就能指挥所有 AI 智能体)。
你的 AI 助手,为何总像个「对话玩具」?
你一定经历过这些崩溃瞬间:
任务混乱
:同时交代三五个项目,AI 的逻辑开始混乱,把 A 项目的排版要求用到了 B 项目上。
成本失控
:算力跑了半小时,Token 账单高得离谱,却不知道钱具体花在了哪里。
记忆黑盒
:AI 记错了你的偏好,你却找不到问题根源,只能关掉重开,从头再喂一遍需求。
被动等待
:你离开电脑,AI 就停止工作,无法让它独立、长期地推进一个复杂任务。
问题的根源在于,绝大多数 AI Agent 工具的设计原型仍是
聊天机器人
:以「对话」为中心,默认你一次只做一件事,默认你全程在场。
这种设计用来聊天问答没问题,但作为生产力工具,却有三大结构性缺陷:
记忆黑盒、成本失供、任务被动。
这些问题,无法通过优化模型解决,需要的是工具层面的范式革命。
范式革命:从「对话」到「工作舱」
PilotDeck 的核心解法,是用
「工作舱(WorkSpace)」
取代「对话框」,为每个项目建立一个独立的智能体生存环境。
这并非简单的「文件夹隔离」。PilotDeck 的每个 WorkSpace 都是一个包含三层结构的完整项目舱:
专属文件系统
:清晰划定 AI 可访问和操作的文件范围,边界清晰,杜绝污染。
专属记忆
:项目相关的目标、进度、用户偏好(Feedback Memory)都存储于此,物理隔离,互不干扰。
专属技能
:可一键安装所需技能,并随任务推进沉淀项目专属能力,越用越强。
一个 WorkSpace,就是一个项目的驾驶舱。
在这里,智能体不再是一个被动回复的「聊天对象」,而是一个能持续演化、越用越懂你的「项目伙伴」。
围绕 WorkSpace,PilotDeck 提供了三大核心能力,让智能体真正成为你的高效军队。
三大杀手锏:让你的智能体「听话、省钱、不知疲倦」
01 记忆白盒化:AI 记错了?你能找到,更能修改
黑盒记忆下,你无法知道 AI 记了什么、记错了什么。比如,当 AI 把公众号(要求活泼)的文风用在了产品说明书(要求严谨)上,你只能抓狂地重开对话。
PilotDeck 的解法是:
记忆全链路可见、可控、可追溯。
在 PilotDeck 中,你可以随时打开 WorkSpace 查看 AI 的记忆列表。如果发现一条来自 B 项目的错误记忆(如「文风要求严谨」)污染了 A 项目,你可以:
精准定位
:立刻看到这条错误记忆的来源和时间戳。
一键修正
:直接删除或修改该条记忆,从根源上解决问题。
安全回滚
:PilotDeck 有个独特的「任务制 Dream」机制,AI 会在空闲时自动整理优化记忆。如果整理错了,你也可以一键回滚,不怕「越整理越乱」。
记忆白盒化,让你从 AI 的「猜测者」变为「驾驭者」
02 智能路由:花 1/6 的钱,办更漂亮的事
修改一个标题和撰写一份深度研报,都调用最顶级的昂贵模型,成本怎能不失控?
PilotDeck 的解法:
自动识别任务难度,动态分配模型,让每分钱都花在刀刃上。
PilotDeck 的智能路由,就像一个聪明的项目经理,它会:
自动分级
:识别任务是简单(如格式调整)还是复杂(如策略分析)。
动态调度
:为简单任务分配轻量、便宜的模型(比如高效的端侧模型),为复杂任务调用顶级云端模型。
成本透明
:所有开销分项可见,让你清楚知道每个任务的成本。
效果有多惊人?
在社交媒体内容生成场景,开启智能路由后,
成本节省近 70%。

更值得关注的是复杂任务的效果。在处理多源数据报告、论文综述等复杂任务时,用「强弱模型搭配」的智能路由方案,
仅花费了 1/6 的成本,效果评分甚至反超了全程使用顶级模型的方案。

03 Always-on:人不在,活儿不断
传统 Agent 需要你不断触发。你一走,项目就停滞。
PilotDeck 不同:
它赋予 Agent 主动性,让它成为 24 小时在线的「永动机」。
Always-on(常驻任务)不是简单的定时执行,而是:
主动发现
:Agent 会主动发现项目中尚未完成的任务或值得推进的工作。
主动推进
:无需你的指令,它会自主执行、处理,并将成果落地为文件。
主动汇报
:在你回来后,直接看到更新的进度和产出。
这意味着,你可以部署一个研究任务、一个内容生产流程,然后放心离开。回来时,工作已在轨道上稳步推进。
一个人,真正可以同时驱动多个 Agent,并行处理多个复杂项目。
拥抱开源,这才是 Agent 时代的生产力
PilotDeck 的设计哲学,是把智能体从「对话框」里解放出来,放进一个真正以任务为中心的专业工作环境中。
它不仅是一个强大的多任务执行平台,还可以:
实现端云协同
:调用端侧模型作为子 Agent,在保护隐私的同时,高效完成特定任务。
自动部署端侧模型
:在多语言播客任务中,它会自动部署和调用 VoxCPM 模型来生成语音,实现无缝衔接。
模型能力再强,也需要匹配的生产力工具来释放。PilotDeck 做的,就是打造 Agent 时代的「操作系统」。在这里,记忆不再是黑盒,成本不再是糊涂账,任务不再被动等待。
如果你也认为 AI 应该是高效的生产力工具,而非简单的对话玩具,欢迎来体验 PilotDeck。