Hermes Agent 深度技术评测:性能与架构全解析
Hermes Agent,一个由Nous Research在2026年2月底开源发布的自主AI智能体,最近在圈子里热度挺高。它用MIT许可证,核心是用Python写成的。有趣的是,它诞生的初衷是为了解决一个被其创造者称为“AI失忆症”的麻烦——也就是大语言模型驱动的助手,每次对话结束就忘得一干二净。
那么,它到底靠什么来解决这个问题?核心创新在于一个叫作闭环学习回路的机制。简单说,就是智能体每次做完一项复杂任务后,会自己动手写一份可复用的“技能文档”,为之前的对话建立跨会话的索引,并且不断构建一个持续演进的用户心理模型。这个项目发布后仅四周,GitHub星标就破万了,到2026年3月下旬已经飙到17,400,成了Nous Research有史以来最受欢迎的开源项目。而且,它在五周内迭代了六个主要版本,从最初的概念验证,已经快变成一个具备多平台生产能力的智能体运行时了。
背景:Nous Research 与 Hermes 模型家族
开发团队
Nous Research这家实验室,主攻大语言模型的后训练和微调。他们的拳头产品就是Hermes模型系列——基于Meta的Llama架构进行深度微调,尤其擅长指令遵循、智能体函数调用和复杂推理。Hermes Agent运行时本身是个独立但又互补的项目:它可以在任何兼容OpenAI接口的端点上运行,而Hermes模型系列,恰恰就是为这种高级智能体任务量身打造的。
模型技术栈
先说说模型技术栈,这能帮我们更好地理解整套体系。
Hermes 3(2024年8月发布)是基于Llama 3.1的三个规模(8B、70B、405B)进行微调的。它用了大约3.9亿tokens的合成数据来训练,而不是人类反馈。训练分两步走:先做监督微调,然后做直接偏好优化。它通过Flash Attention 2实现了96%的样本打包效率,序列长度是8,192 tokens。模型采用了ChatML分隔符来兼容OpenAI API,并在特定数据集上训练以提升工具调用的可靠性。它的前代Hermes 2 Pro已经有90%的函数调用准确率,而Hermes 3把这个差距又拉大了一些。
Hermes 4(2025年8月发布)则带来了两个重大创新:
- 混合推理:模型可以在标准回复和显式的思维链之间自由切换,思维链长度能扩展到16,000 tokens。你可以选择快速模式或者深思模式,模型会根据选择自适应调整,不会对所有问题都搞长篇大论。
- DataForge:一个基于有向无环图的合成数据生成管线。这个管线里的每个节点都会进行结构到结构的转换,比如把维基百科文章变成问答对或者说唱歌曲。一个LLM评判器会对输出进行评估,不断迭代直到样本通过质量门槛。规模提升相当惊人:Hermes 3用了100万样本、12亿tokens;而Hermes 4用了大约500万样本、600亿tokens——样本量涨了5倍,token量直接翻了50倍。
Hermes 4的技术报告通过实证验证了混合推理的有效性:在AIME'24数学基准上,过度冗长推理减少了78.4%,而准确率只损失了4.7%。在MATH-500上,405B模型在混合模式下达到了96.3%的准确率,而标准模式是93.1%。
特别值得一提的是Hermes 4.3(36B)。它是在字节跳动的Seed 36B上微调的,而不是Llama。这打破了“所有Hermes模型都基于Llama”的假设,标志着Nous Research正朝着模型无关的后训练方法论迈进。
Atropos:强化学习训练框架
所有Hermes模型都是通过Atropos训练的,这是Nous Research开源的一个分布式强化学习框架。Atropos不是标准的RLHF——它是一个Rollout处理器,负责管理可能上千个分布式工作节点之间的异步协调,专门用来处理LLM输出生成时间不稳定这个难题。在Hermes 4的训练中,Atropos驱动了拒绝采样,通过大约1,000个任务特定的验证器,筛选出高质量的推理轨迹。有意思的是,同一个Atropos集成也出现在Agent运行时中,用于强化学习训练和轨迹捕获——这就构成了从Agent使用直接回流到模型训练的完整数据管道。
核心架构
ReAct 循环基础
Hermes Agent实现了经典的ReAct模式:观察(读取终端输出、文件内容、工具结果)→ 推理(对照目标分析当前状态)→ 行动(执行命令、调用工具)→ 循环。这个核心循环在代码里是作为AIAgent类实现的,负责处理Provider选择、提示词构建、工具执行、重试与回退、回调、上下文压缩以及持久化同步。不过,真正让它与众不同的,并不是这个循环本身有什么魔法,而是围绕它精心设计的五层记忆系统、技能架构和用户建模。
五层记忆系统
Hermes Agent维护了五个截然不同的持久化层,从临时性到永久性依次递进:
- 短期推理内存:就是当前会话的标准Transformer上下文。重启后不留痕迹,跟所有传统聊天机器人依赖的基线状态一样——说穿了就是无状态的。
- 持久化内存文件:`MEMORY.md`(大小限制约2,200个字符)和`USER.md`(大小限制约1,375个字符)是跨会话存活的扁平文件。当文件写满时,智能体会进行整合——合并或丢弃低价值的信息,而不是简单粗暴地把新信息丢掉。
- 技能记忆 / 程序性记忆:放在`~/.hermes/skills/`目录下的`SKILL.md`文件里,专门捕获复杂任务的分步解决方案。这跟标准RAG那种零散检索不一样,Skills能保持对完整工作流的连贯程序性理解。当智能体完成下面这些任务时,它会自主创建技能:涉及5次以上工具调用的任务;从错误中恢复的任务;收到用户修正反馈的任务;或者发现了非平凡工作流的任务。
- Honcho 辩证式用户建模:这是与Plastic Labs的Honcho用户建模库的集成。Honcho是异步运行的:在会话进行和消息记录的过程中,后台推理模型会推导出关于用户心理的结构化结论——比如偏好、沟通风格、领域专业知识、工作模式,而且完全不存储原始对话转录。核心洞察就一句话:存储结论,而非对话。比如存储“用户偏好TypeScript”,而不是“用户在消息#47里说他偏好TypeScript”。Honcho提供了5个工具:`honcho_profile`(读取/更新对等卡片)、`honcho_search`(语义搜索)、`honcho_context`(会话上下文)、`honcho_reasoning`(LLM合成推理)、`honcho_conclude`(创建/删除结论)。上下文检索延迟大约200毫秒。
- FTS5 全文搜索:一个基于SQLite的可搜索数据库,涵盖了所有历史交互记录,还有LLM驱动的摘要能力。这让跨会话回忆(比如“我上周二做了什么?”)成为可能——提供了向量检索或扁平文件都搞不定的时间维度上下文。
Honcho 双端对等架构
Honcho把用户和AI智能体看成是具有持久状态的对等端点。有四个工具在运行时向Agent暴露这个能力:
| 工具 | 功能 |
|---|---|
honcho_profile | 快速对等卡片检索(无LLM调用),返回精选的关键事实 |
honcho_search | 语义记忆搜索,返回按相关性排序的原始摘录 |
honcho_context | 由Honcho的LLM驱动的辩证式问答,从历史中综合答案 |
honcho_conclude | 当用户陈述偏好或更正时,将持久化事实写入Honcho |
用户和智能体的表征在会话启动时就注入系统提示词,让Hermes既清楚对话对象是谁,也明白自己知道什么。
闭环学习回路
闭环学习回路把所有记忆层串联成一个复合循环:
- Agent完成任务 → 写入`SKILL.md`
- 后续相似任务 → 向量存储检索技能 → Agent从经过验证的脚手架起步,而不是从零开始
- Honcho观察用户 → 推导偏好事实 → 后续会话实现预个性化
- FTS5索引所有交互 → 跨会话时间线召回可用
- 周期性内部提示促使Agent在上下文占满前持久化高价值知识
实战数据(来自Nous Research黑客松)表明:技能辅助任务相比冷启动执行,Token消耗能降低30%到85%。有独立从业者报告说,在三份自主生成的技能文档辅助下,类似的研究任务完成速度加快了40%。
SOUL.md 人格栈
Hermes Agent通过三层人格系统,把“它了解你的内容”和“它如何与你对话”分离开了:
~/.hermes/SOUL.md:全局人格文件,每次会话启动时逐字注入系统提示词。它控制所有交互中的沟通语调、直接程度和风格——如果某种行为应该在所有部署中保持一致,就该放在这里。- 人格覆盖:临时会话级模式切换,预设了“technical”、“creative”和“teacher”等模式。
- AGENTS.md:按工作目录限定的项目级约定。
执行基础设施
六种终端后端。Hermes Agent通过`BaseEnvironment`接口把Agent运行时与执行环境分离,提供了六种实现:
| 后端 | 适用场景 | 特性 |
|---|---|---|
| Local | 开发、个人使用 | 直接系统执行,无隔离 |
| Docker | 生产环境、安全敏感 | 只读根文件系统、能力降级、PID限制、命名空间隔离 |
| SSH | 远程服务器 | 跨会话持久化环境 |
| Daytona | 云端开发 | 无服务器开发环境 |
| Singularity | HPC、研究集群 | 面向计算密集型工作负载的容器编排 |
| Modal | 无服务器生产 | 空闲时休眠,按需唤醒,会话间近乎零成本 |
配置只需要在`~/.hermes/config.yaml`里改一行——切换后端时Agent代码不需要任何改动。
多平台消息网关也很实用。单一网关进程同时路由所有已连接平台间的交互。截至v0.6.0,已经支持Telegram(含Webhook模式)、Discord、Slack(多工作区OAuth)、WhatsApp、Signal、IMAP/SMTP电子邮件、飞书/Lark和企业微信。语音备忘录转录和跨平台对话连续性都已经包含在内。这意味着,你可以从手机上的消息应用跟Agent聊天,同时它在远程云虚拟机上帮你干活。
模型Provider灵活性方面,Agent是Provider无关的——这是Nous Research的明确设计选择。支持的端点包括:Nous Portal(400+个模型)、OpenRouter(200+个模型)、任何OpenAI兼容API,以及通过Ollama、vLLM或llama.cpp进行的本地推理。截至2026年3月,Hugging Face已经被添加为一级推理Provider,提供了按用例组织的28个精选模型。v0.6.0版本还增加了有序回退Provider链:当主Provider返回错误或不可达时,Hermes会自动尝试配置的备用方案。
MCP 集成(双向)
Hermes Agent中的MCP集成是双向的:
- MCP Client模式:启动时连接任何已配置的MCP服务器(本地stdio或远程HTTP),自动发现工具,并将其注册为一级原生工具。自动重连采用指数退避(1s → 2s → 4s → 8s → 16s,最多5次尝试)。
- MCP Server模式(v0.6.0新增):通过`hermes mcp serve`,把Hermes的对话和会话暴露给任何MCP兼容客户端——Claude Desktop、Cursor、VS Code。客户端可以通过标准协议浏览对话、读取消息、跨会话搜索以及管理附件。
agentskills.io 标准
标准定义
技能遵循agentskills.io开放标准:一个包含`SKILL.md`文件的目录,文件带有YAML前置元数据和Markdown指令。标准规定了最少的必填字段(`name`、`description`)和不受限制的Markdown正文(建议5,000 tokens以下)。可选的子目录(`scripts/`、`references/`、`assets/`)支持更复杂的程序性技能,包含辅助脚本和补充文件。技能实现了渐进式披露:元数据先加载到Agent的上下文索引里;完整内容等技能被激活时才按需加载。这样既保持了技能库的可发现性,又最小化了Token消耗。
跨框架可移植性
技能系统最厉害的地方,或许是它的可移植性。截至2026年3月,超过11款工具已经采用了这个标准:Claude Code、Cursor、GitHub Copilot、Gemini CLI、VS Code、Amp、Goose、Roo Code、Kiro、Codex和OpenCode。为Hermes Agent编写的技能可以直接用在Claude Code上。为Cursor编写的技能也可以直接用回Hermes Agent。这种跨框架兼容性在智能体生态里相当罕见——大多数技能/插件系统都是绑死在自家框架上的。
条件激活
技能还能根据当前会话中的工具可用性,通过前置元数据字段自动显示或隐藏自己:
fallback_for_toolsets:当高级工具可用时技能隐藏,只在不可用时作为免费/本地替代方案显示。requires_toolsets:除非特定工具集存在,否则技能隐藏。
这实现了一种优雅降级——Agent会根据当前部署环境中可用的资源,呈现出不同的技能选项。
研究与训练基础设施
Hermes Agent不仅是一个终端用户工具,更是未来模型训练的数据生成引擎:
- 批量轨迹生成:运行并行工作节点并带有检查点,以规模化收集Agent交互数据。
- Atropos RL集成:用于训练Hermes模型的同一个Atropos框架已嵌入运行时。运行复杂循环和多步RPC任务的Agent,直接从实际使用中生成强化学习训练数据。
- YCBench环境:长时域Agent基准测试集成,用于系统性评估。
- ShareGPT导出:轨迹压缩并导出为ShareGPT格式,用于监督微调管线。
这形成了一个飞轮:Hermes Agent使用后生成训练数据 → Atropos处理 → 训练出更好的Hermes模型 → Hermes Agent变得更强大。
多智能体与子智能体架构
Hermes Agent把子智能体委派作为原生能力来支持。子智能体拥有自己独立的对话、终端和Python RPC脚本,支持零上下文成本的并行管线。自v0.5.0起,子智能体还有独立的迭代预算——它们不再消耗父智能体的预算,防止了复杂嵌套工作流中的过早终止。通过`execute_code`进行的程序化工具调用,会把多步管线折叠成单次推理调用:在后台运行RPC调用的子智能体直接执行代码,父智能体只需要评估最终输出,极大降低了LLM调用开销。
竞争格局
横向逐项对比
| 维度 | Hermes Agent | Claude Code | CrewAI | LangGraph | AutoGen |
|---|---|---|---|---|---|
| 架构 | 单一持久化智能体 | IDE嵌入式CLI | 多角色智能体 | 状态机图 | 对话式多智能体 |
| 记忆机制 | 5级持久化存储 | 基于会话 | 基础任务记忆 | 有限 | 有限 |
| 技能自我进化 | 自主创建+精炼 | agentskills.io(手动) | 无 | 无 | 无 |
| GitHub星标数 | ~17,400 | 不适用(专有) | ~47,600 | 极高 | 高 |
| 开发语言 | Python | TypeScript | Python | Python | Python |
| 本地推理支持 | Ollama, vLLM, llama.cpp | 不支持 | 不支持 | 不支持 | 不支持 |
| 消息平台集成 | 8(统一网关) | 不适用 | 不支持 | 不支持 | 不支持 |
| 多智能体协作 | 子智能体委派 | 不支持 | 核心特性 | 核心特性 | 核心特性 |
| 开源协议 | MIT | 专有 | MIT | MIT | MIT |
| 资金背景 | 社区 / Nous Research | Anthropic | $1800万(Insight Partners, Andrew Ng) | LangChain Inc | Microsoft |
Hermes 的制胜之处
如果问Hermes Agent最打动人的点是什么,那一定是它的复合价值主张——运行时间越长,它对操作员和运行环境的了解就越深入。对于那种希望智能体在数月内积累上下文信息的单个高杠杆操作员(而不是由团队向多样化最终用户部署智能体的场景),Hermes的记忆架构在开源替代方案里确实没有能直接对标的对手。
有一个经常被引用的基准测试很有说服力:同一个底层模型(Opus 4.5),仅仅因为智能体脚手架不同,在SWE-bench上就产生了17道题的得分差距。这说明了一个关键问题:架构比模型选型更重要。这也印证了Hermes在记忆与技能系统上的投入是走对了方向,而不只是提供一个裸模型访问。
Hermes 的不足之处
- 多智能体编排:Hermes本质上是带有子智能体委派的单智能体框架。它缺乏CrewAI那种基于角色的团队结构,也没有LangGraph的状态机控制。对于需要高度定制化协调智能体团队的用例,Hermes可能不是最佳选择。
- 企业就绪度:截至2026年3月,还没有企业版、商业SLA、访问控制。而CrewAI有$1800万融资和企业合同;LangGraph有LangSmith可观测性和生产级检查点。
- 设置复杂度:需要Python运行时、独立的模型服务器、配置文件管理以及跨多个Provider的API Key管理。有些单二进制替代方案在这方面就省心得多。
- 文档缺口:社区反馈比较一致,文档相对于框架的复杂度和快速发布节奏来说,还是有些薄弱。
批判性分析:skeptics 的观点
当然,任何技术方案都不可能是全然的掌声。一份详细的技术审查提出了几个实质性的质疑:
- 技能作为结构化提示注入:有审查者认为,Hermes所宣传的“技能创建”,本质上就是对Markdown文件进行CRUD操作,然后在运行时注入上下文。这被描述为“带有CRUD层的结构化提示注入,而非原生能力”。不过,渐进式披露的设计倒被称赞为真正的优秀工程实践。问题可能出在营销框架上,被认为有些过度延伸。
- 记忆作为结构化笔记:带边界限制的`MEMORY.md`和`USER.md`文件,其实跟Claude Code、OpenCode以及大多数带配置文件的工具用的是同一个思路。实现本身工程做得很扎实(原子写入、文件锁、注入扫描、字符预算),但把“伴你成长”作为一个亮点来宣传,在批评者看来,这不过是对持久化结构化笔记的一种营销包装。
- Llama微调依赖:在该审查发布时,每一款Hermes模型都是Llama的微调版。跟Hermes 4交互的感觉,跟Llama 3.1 405B几乎没区别——因为它本质上就是,只不过做了针对性的指令调优。模型无关的Agent运行时虽然缓解了这个问题,但觉得Llama推理风格受限的开发者,会在任何Hermes模型里都体验到这一点。
- Honcho未经证实的宣称:Honcho的辩证式用户建模在架构上确实新颖,但至今没有发表的A/B测试或基准来对比启用和停用Honcho时Agent的任务表现。理论上的心智模型用户画像,在100次会话标记处能提升任务完成率的说法,仍然是个有待验证的实证问题。
- 无遗忘机制:Agent会无限累积记忆。没有衰减、剪枝或陈旧性检测。为旧工作流模式写的技能,以后跟新做法可能冲突;Honcho推导出的用户事实也可能过时。创造复合价值主张的记忆累积方式,同时也在制造复合一致性问题。
实用用例
根据实践者和社区文档的反馈,Hermes Agent在下面这些场景里回报最明显:
- 重复性开发工作流:比如每日GitHub Issue分类、自动摘要发布到Slack、每周Changelog生成。FTS5会话召回加上技能复用,意味着Agent会跨会话不断改进自己的分类逻辑。
- 持久化编码助手:跟那些关闭编辑器就丢了上下文的IDE嵌入式Copilot不同,Hermes作为后台进程持续运行,在整个开发生命周期中维护项目上下文。
- 研究与分析管线:带有并行工作节点的批量轨迹生成,让大规模研究任务可以在可控成本下进行,尤其是在空闲时几乎零成本的无服务器后端上。
- 自动化运维:Cron定时任务(备份、每周审计、报告生成)可以直接投递到任何已连接的消息平台。自然语言调度(比如“每周一上午9点,总结上周的提交”),配合投递到Telegram、Slack或电子邮件,非常方便。
- 模型训练数据生成:从事LLM开发的团队,可以以轨迹捕获模式运行Hermes,从真实运维任务中生成高质量训练数据,直接输入Atropos强化学习管线。
开放问题与未来轨迹
有几个未决问题,将决定Hermes Agent的长期发展走向:
- agentskills.io 能否成为通用标准? 十一款工具采用同一技能格式,确实很厉害。但标准化这东西,在压力下往往会碎片化——当供应商需要标准不支持的特性(比如认证、版本管理、依赖管理)时。`SKILL.md`格式的有意极简主义让采用变得容易,但也让演进变得困难。
- 技能库能否在大规模下保持连贯? 技能无限累积,旧的可能过时;冲突的技能(一个说“用yarn”,另一个基于用户偏好变更说“用pnpm”)会产生一致性问题。agentskills.io标准对技能生命周期管理或冲突解决,目前没有任何规定。
- Honcho用户建模能否在实际上改善结果? 理论论证很令人信服,但实证证据还付之阙如。需要在有/无Honcho的情况下,在30/60/90天使用节点上,对任务完成率进行独立评估。这要么会验证该架构的价值,要么会揭示其为一个精心构建但仍需实证的用户面向叙事。
- DataForge的合成数据赌注:Hermes 4使用的训练tokens是Hermes 3的150倍,全部是合成生成的。LLM评判器提供了质量过滤,但合成数据可能放大种子数据中的偏差。600亿tokens的DataForge生成数据,是否比3.9亿tokens的精心策划数据能训练出真正更好的Agent,答案还没完全落地——Hermes 4的基准测试确实令人鼓舞,但底层模型也同时发生了变化,变量控制并不纯粹。
- 企业采用路径:Hermes Agent当前的架构是为单个高杠杆操作员优化的,而不是那种具备访问控制、审计追踪、合规要求以及团队级Agent管理的企业部署。Nous Research是会朝着这些能力方向去构建,还是把这个空间让给资金更充足的竞争对手?这决定了Hermes是保持为一个高级用户工具,还是最终成为一个企业级平台。
结论
总的来说,Hermes Agent可以说是2026年发布的开源Agent框架中,架构最具雄心者。它的闭环学习——五层记忆、自主技能创建、辩证式用户建模和FTS5会话搜索——代表了一个真正的架构押注:持久化、复合增长的上下文,将比无状态算力更具价值。快速的发布节奏(五周六个主要版本)和社区采纳(17,400 Stars),都验证了这一设计方向上确实有真实需求。
客观地评价,Hermes目前处于pre-1.0的高潜力架构论证阶段。“伴你成长”这个定位,部分已经实现了(技能确实能降低Token开销;会话搜索提供了真实的跨会话召回),但部分还属于愿景(Honcho的用户建模缺乏实证验证;技能累积还没有剪枝机制)。对于那些运行数月而不是数天的开发者和团队,复合优势在架构层面是真实存在的。但对于那些需要经过实战检验的可靠性、企业级访问控制或原生多智能体编排的组织,这个框架尚未就绪。不过,考虑到Nous Research在模型训练方面的专长,以及连接Agent使用与模型改进的Atropos飞轮,它的发展轨迹指向了一个不仅能跨会话、甚至能跨模型代际持续优化的系统。这一点,尤其值得持续关注。