# Hermes Agent 深度拆解报告
## ——会自己进化的 AI 智能体,是营销话术还是真架构?
> **参考风格:理查德·费曼**
> 如果你不能向一个聪明的大一学生解释清楚,那你自己也没有真正理解。
---
## 一、先回答最根本的问题:它到底在卖什么?
市面上每个 AI Agent 都在喊" autonomous"(自主)。Hermes 的特别之处在于,它把自己的定位从"工具"改成了"学生"。
它的核心主张是:**内置学习循环(built-in learning loop)**。不是指模型本身会更新权重——那需要 GPU 集群和几百万美元。而是指 agent 的运行时(runtime)会从自己的工作中提炼经验,把它们变成可复用的"技能"(skills),并在下次遇到类似任务时自动调用、自动优化。
这听起来像人话吗?打个比方:
> 你请了一个实习生。普通 agent 是每天下班就失忆的实习生,第二天你得重新教。Hermes 是会在每天晚上写工作笔记、整理 SOP、而且越干越顺手的实习生。
笔记 = `MEMORY.md`(事实记忆)。
SOP = `skills/` 目录下的自生成文件(程序性记忆)。
对你的了解 = `USER.md`(用户画像,通过 Honcho 生成)。
这就是它的三层记忆架构。**区别不在于它有记忆,而在于记忆是如何被创建和维护的。**
---
## 二、内置学习循环:从"用"到"学"的机制
### 2.1 技能的诞生:每 15 次工具调用后的"复盘"
Hermes 的学习循环有一个非常具体的触发条件:**每完成大约 15 次工具调用,agent 会暂停当前工作,进入一次自我复盘(reflection)**。
它做了什么?
1. 回顾刚才这一轮对话里用了哪些工具、步骤是否有效、有没有走弯路。
2. 如果任务足够复杂且解决路径清晰,它会**自动生成一个 skill 文件**,存到 `~/.hermes/skills/` 下。
3. 这个 skill 是一个 Markdown 文件,遵循 agentskills.io 开放标准,包含:触发条件、步骤清单、注意事项、甚至可以内嵌 Python 脚本。
**关键洞察:这不是魔法,这是一个可重复的节拍器(cadence)。**
很多 agent 框架号称"自动学习",但学习触发条件是模糊的——比如"任务结束后"。Hermes 把它量化成了工具调用次数。这让它不会因为每一个小任务都乱写技能,也不会因为任务太长而忘记复盘。
### 2.2 技能的自我改进:从 v1 到 v4 的"重写"
skill 生成后不是死的。下次 agent 调用这个 skill 时,如果环境变了、步骤需要调整、或者发现了更短的路径,它会在执行过程中**直接修改 skill 文件**。
有用户记录了一个真实案例:一个"竞品监控"任务,同样的 prompt 每周一执行一次。
- 第 1 周:花了 20 分钟,agent 现查现做。
- 第 4 周:花了 12 分钟,skill 已经被重写过两次。
- 第 6 周:花了 8 分钟,agent 基本在走固定流程,只在遇到异常时才需要动脑。
**这就是程序性记忆的复利效应。** 模型能力本身没有变,但 agent 的"肌肉记忆"在积累。
### 2.3 "Nudge"机制:agent 自己催自己写笔记
除了被动地在工具调用后复盘,Hermes 还有一个主动机制:**定期 nudge(轻推)自己把短期记忆持久化**。
这类似于一种"你该写日记了"的内部提醒。agent 会检查当前会话中有没有值得写入 `MEMORY.md` 或 `USER.md` 的信息——比如用户的新偏好、项目路径的变更、一个刚发现的坑——然后主动调用记忆写入工具。
**坦诚地说:** 这个 nudge 的具体触发逻辑(是定时?还是基于信息熵?)在公开文档里没有完全透明。但从架构设计的角度看,它的意义在于解决了 agent 的一个常见毛病:**做了很多事,但关窗口那一刻什么也没留下。**
### 2.4 FTS5 + LLM 总结:跨 session 的"长程记忆"
Hermes 用 SQLite 的 FTS5(全文检索)模块索引所有历史会话。当你问"上周我们是怎么解决那个 Docker 问题的?"时,它不是靠 LLM 的上下文窗口去"回想"——那只有 128k 或 200k token,撑不住几个月的日志。
它的流程是:
1. FTS5 快速检索相关历史会话(毫秒级)。
2. 把检索到的片段交给 LLM 做总结和关联。
3. 把总结结果注入当前上下文。
**这是搜索引擎 + 大脑的组合拳。** 没有 FTS5,LLM 总结就是大海捞针;没有 LLM 总结,FTS5 搜出来的是碎片,无法形成连贯的叙事。
---
## 三、与 OpenClaw 的对比:不是更好的锤子,是不同的锤子
### 3.1 架构哲学:生态系统优先 vs. Agent 核心优先
| 维度 | OpenClaw | Hermes Agent |
|------|----------|--------------|
| **设计核心** | Skill 生态系统(clawhub,数千个 community skills) | AIAgent 类本身(一个核心 agent 服务所有入口) |
| **记忆模型** | 按渠道/会话隔离,依赖社区 skill 做持久化 | 统一三层记忆(Facts/User model/Skills),跨平台共享 |
| **学习机制** | 主要依靠用户手动安装 skills,agent 本身不"学习" | 内置循环:自动创建、自动改进 skills |
| **部署形态** | 偏重本地 CLI + 可选 gateway | gateway 是一等公民,CLI 和消息平台完全对等 |
| **模型绑定** | 历史上有较强绑定(OpenAI 早期) | 完全模型无关,200+ 模型 via OpenRouter |
OpenClaw 像一个**应用商店**——你想做什么,先去商店搜有没有对应的 skill。Hermes 像一个**学徒**——你教它做什么,它学会后自己长出了能力。
### 3.2 迁移功能揭示的兼容性设计
Hermes 明确支持 `hermes claw migrate` 命令。如果检测到 `~/.openclaw` 目录,它会主动提供迁移:
- 迁移配置(provider、API key、模型偏好)。
- 迁移 MEMORY.md(事实记忆)。
- 但**不迁移 OpenClaw 的 skills**——因为两者 skill 格式不完全兼容(agentskills.io vs. OpenClaw 的旧格式)。
这暗示了两件事:
1. **用户群体重叠度很高**:Hermes 很清楚它的种子用户就是从 OpenClaw 过来的。
2. **记忆比工具更重要**:配置和事实记忆的迁移是自动的,但技能生态需要重建——因为 Hermes 认为自己的技能生成机制能更快补齐这个 gap。
### 3.3 一个真实的用户反馈
有团队同时部署了两者:
> "过去用 OpenClaw,每次新 session 都要重新解释项目脉络;Hermes 记住了我们的技术栈偏好、部署流程、甚至常见的 debug 步骤。"
但同一篇文章也警告:
> "Hermes 的学习品质高度依赖底层模型的能力。用顶级模型时 skill 文件写得精确;换成免费或小型模型,生成的技能就比较粗糙,有时反而会干扰后续任务。"
**这就是费曼式诚实:它不是一个无脑变强的黑箱,它的学习质量上限由你选的模型决定。**
---
## 四、多后端架构:为什么一个 Agent 需要 6 种运行环境?
### 4.1 六种终端后端一览
| 后端 | 适用场景 | 核心价值 |
|------|----------|----------|
| **Local** | 本地开发、快速迭代 | 零延迟、零开销 |
| **Docker** | VPS 部署、团队共享 | 容器隔离 = 安全边界 |
| **SSH** | 远程服务器 | 你在笔记本聊天,agent 在生产环境执行 |
| **Daytona** | 云原生开发环境 | 空闲时休眠,近乎零成本 |
| **Singularity** | HPC 集群、学术研究 | 无需 root 的容器隔离 |
| **Modal** | Serverless GPU | 按需唤醒、按秒计费 |
### 4.2 核心设计决策:界面与执行解耦
Hermes 最重要的架构决策不是"支持很多后端",而是**把"你在哪里说话"和"工作在哪里执行"彻底分开**。
你可以在 Telegram 上发一条语音消息,agent 的处理逻辑运行在 Modal 的 serverless GPU 容器里,结果又推送到你的 Slack 频道。你的手机、笔记本、远程服务器、serverless 云函数,全部通过同一个 gateway 协调。
**为什么这很重要?**
因为 agent 的可用性和成本结构被彻底改变了。传统的本地 agent(比如早期的 OpenClaw)有一个致命缺陷:**它只在你的电脑开机时活着**。你想让它每天早 8 点给你发一份日报?那你得让笔记本整夜不睡。
Hermes 的 Daytona/Modal 后端让 agent 的环境可以**休眠(hibernate)**。没有任务时,容器停止,费用趋近于零。有消息进来时,平台在秒级唤醒它。这对于个人用户意味着"$5 VPS 就能跑一个 24/7 agent",对于企业意味着"突发任务自动扩缩容"。
### 4.3 安全设计
Docker/Singularity/Modal 后端默认启用安全加固:
- 只读 root 文件系统(Docker)。
- 丢弃 Linux capabilities(只保留 `DAC_OVERRIDE`、`CHOWN`、`FOWNER`)。
- 禁止特权提升。
- PID 限制(256 个进程)。
- 完整的命名空间隔离。
SSH 后端被官方推荐为一种"安全模式"——agent 运行在一个它无法修改自身代码的远程沙箱里。这防止了一种很真实的攻击面:**agent 被 prompt 注入后,试图修改自己的系统文件或提示词**。
---
## 五、消息网关:如何同时对接 Telegram、Discord、微信、飞书?
### 5.1 统一网关架构
Hermes 的 gateway 是一个**单进程后台服务**,同时维护到所有配置平台的 WebSocket/HTTP/webhook 连接。
截至 v0.9.0+,它支持 15+ 个平台:
- 国际:Telegram、Discord、Slack、WhatsApp、Signal、Matrix、Mattermost、Email、SMS
- 国内/企业:微信(iLink Bot API)、企业微信、飞书/Lark、钉钉
- 其他:Line、Microsoft Teams、Google Chat、Home Assistant、BlueBubbles(iMessage)
**不同平台的能力矩阵差异很大:**
| 平台 | 语音 | 图片 | 文件 | 线程 | 反应 | 打字中 | 流式 |
|------|------|------|------|------|------|--------|------|
| Telegram | ✅ | ✅ | ✅ | ✅ | — | ✅ | ✅ |
| Discord | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Slack | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| WhatsApp | — | ✅ | ✅ | — | — | ✅ | ✅ |
| 微信 | ✅ | ✅ | ✅ | — | — | ✅ | ✅ |
| 飞书 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Email | — | ✅ | ✅ | ✅ | — | — | — |
网关的任务是**把各平台的原生消息格式翻译成统一的内部事件**,然后交给同一个 AIAgent 实例处理。回复时,再根据目标平台的 API 能力做适配(比如 Telegram 支持流式编辑消息,Email 只能一次性发送)。
### 5.2 跨平台记忆连续性
这是 Hermes 网关最有价值的特性之一:
> "你在飞书里教它的偏好,在微信里同样生效;你在 CLI 里沉淀的技能,在 Telegram 里同样可调用。"
记忆以**用户**为核心存储,而不是以**渠道**隔离。这与很多"多平台支持"的竞品有本质区别——后者往往是同一个后端挂了好几个互不相通的前端。
### 5.3 企业接入的"正规军"路线
Hermes 接入微信的方式值得单独提一句:它走的是**腾讯官方 iLink Bot API**,而不是模拟客户端或破解协议。企业微信侧通过回调验证机制确保安全。这在开源 agent 生态里相对少见——很多项目为了快速支持微信,采用了灰色地带的协议逆向,导致随时可能因为微信的风控策略而失效。
---
## 六、Honcho Dialectic User Modeling:它怎么"理解"你?
### 6.1 什么是 Dialectic(辩证式)建模?
"Dialectic" 源自古希腊的苏格拉底式对话:通过提问、反驳、澄清,逐步逼近真理。Hermes 的 Honcho 模块把这个概念借到了用户建模上。
它的工作方式不是填表式的("你的名字?你的职位?"),而是**观察式的**:
- 你在不同任务中的决策模式是什么?
- 你更喜欢详细解释还是直接给答案?
- 你什么时候会打断 agent、什么时候会放任它自己干?
- 你对错误的容忍度如何?
这些信息被持续写入 `USER.md`,并在每次会话开始时作为 prompt 的一部分注入。
### 6.2 与其他用户建模方案的区别
| 方案 | 机制 | 局限 |
|------|------|------|
| **静态 Profile** | 用户手动填写 JSON/YAML | 更新滞后,维度有限 |
| **LLM 记忆窗口** | 依赖上下文长度"记住"你 | 128k/200k token 后必然遗忘 |
| **RAG 向量检索** | 把历史对话做 embedding,相似度搜索 | 只能召回"像什么",无法形成"你是谁"的系统性画像 |
| **Honcho Dialectic** | 基于对话历史的辩证推理,主动更新 `USER.md` | 效果依赖底层模型的推理能力 |
**坦诚地说:** Honcho 的具体算法细节(它是如何做"辩证推理"的?是每次对话后跑一个独立的 summarization pass?还是增量更新?)在公开文档中没有深入到代码级别的透明度。但从架构定位来看,它的意义在于**把用户建模从"配置"变成了"过程"**——agent 不是读一份简历来了解你,而是通过长期的共事关系来熟悉你。
---
## 七、与 AutoGPT、MetaGPT、AIDE 等框架的横向对比
### 7.1 各框架的核心假设
| 框架 | 核心假设 | 最佳场景 |
|------|----------|----------|
| **AutoGPT** | "给 agent 一个目标,它会自己分解、规划、执行" | 概念验证、探索性任务 |
| **MetaGPT** | "软件工程可以模拟为多人协作的 SOP 流程" | 标准化软件开发(需要角色分工) |
| **AIDE** | "AI 是研究助手,核心是数据处理和实验迭代" | 数据科学、学术研究 |
| **Hermes** | "agent 的价值在连续运行中积累,学习 > 单次执行" | 长期运维、周期性任务、个人/团队助理 |
### 7.2 关键差异
**AutoGPT** 是这场游戏的"先驱",但它的问题也很经典:容易陷入"思考循环"(不停规划却不执行),或者执行了却没法把经验带走。它证明了" autonomous agent"的概念可行,但没有解决"可持续运行"的问题。
**MetaGPT** 把软件工程拆解成产品经理、架构师、工程师、测试员等角色,让多个 agent 协作。它的优势是**流程结构化**,劣势是**僵化**——如果任务不完全符合它的 SOP 模板,效率会急剧下降。
**AIDE** 更偏向研究场景,强调实验的可复现性和数据的版本控制。它不是"助手",而是"合作者"。
**Hermes** 的选择是**单 agent + 强记忆 + 自改进**。它不试图用多角色协作来覆盖复杂度,而是试图让同一个 agent 越干越聪明。这种选择更适合那些**重复性高、但细节不断变化**的场景——比如运维、监控、内容运营、竞品跟踪。
---
## 八、Nous Research 的战略定位:为什么一家模型实验室要做一个 Agent 框架?
### 8.1 Nous Research 是谁?
Nous Research 是一家以开源模型训练著称的 AI 实验室。它的核心产出包括:
- **Hermes 系列模型**:基于 Llama 3 微调的开源对话模型(Hermes 3 80B、Hermes 4 等)。
- **Nomos / Psyche**:其他模型系列。
- **Atropos**:强化学习训练框架。
2026 年初,Nous 完成了由 Paradigm 领投的 **5000 万美元 A 轮融资**。
### 8.2 Hermes Agent 的双重身份
大多数人把 Hermes Agent 当成一个"应用层"产品来评估。但如果你从 Nous Research 的商业模式来看,它还有另一层身份:**数据收集层**。
Hermes 内置了三套研究级基础设施:
1. **Batch trajectory generation**:并行生成数千条工具调用轨迹,自动 checkpoint,输出 ShareGPT 格式的微调数据。
2. **Atropos RL 集成**:11 种工具调用 parser,覆盖几乎所有主流模型架构,直接把 agent 的运行轨迹喂给 RL 训练管线。
3. **Trajectory compression**:把长 agent 轨迹压缩到可用 token 预算内——这是长轨迹 RL 训练的刚需。
**这意味着什么?**
每一个 Hermes 用户的每一次成功任务,都可能成为 Nous Research 训练下一代工具调用模型的燃料。对于一个靠卖模型 API 和企业支持合同赚钱的实验室来说,这构成了一个完美的闭环:
> 更好的 agent → 吸引更多用户 → 产生更多轨迹 → 训练更好的模型 → 更好的 agent。
这很像 Red Hat 的 Linux 商业模式(开源 + 企业支持),但叠加了一层"数据飞轮"。
### 8.3 在 AI 生态中的位置
当 Stanford HAI 的报告指出,2026 年 3 月顶级模型之间的 Arena Elo 差距已经压缩到 **25 分以内**(Anthropic 1503 vs. OpenAI 1481)时,** raw model intelligence 不再是唯一的差异化来源**。
Nous Research 的赌注是:下一层的价值在**运行时**——记忆系统、工具编排、可靠性、成本控制、安全性。Hermes Agent 就是他们在这个新战场的棋子。
---
## 九、社区反馈、成熟度与部署真相
### 9.1 增长数据
- GitHub Stars:从发布到突破 10 万用了约 7 周,速度快于 LangChain 和 AutoGPT 同期。
- Contributors:207+。
- 当前版本:v0.11.x(截至 2026 年 5 月)。
### 9.2 真实的痛点
**Windows 支持是硬伤**
Hermes **不支持原生 Windows**。Windows 用户必须走 WSL2,而社区报告了大量路径相关的 bug:斜杠/反斜杠混用导致 `hermes update` 失败、`pwd` 命令报错、PowerShell 与 cmd 行为不一致。有一个专门的社区项目 `hermes-for-win` 试图解决这个问题,但本质上是用 WSL 做了一层封装。
> "Windows 用户在 enterprises 中仍然大量存在,忽视原生支持是一个战略盲点。" ——社区反馈
**学习质量 = 模型质量**
如前所述,skill 的生成和改写完全依赖底层 LLM。用 Claude Opus 4.6 或 GPT-5 时,skill 文件精确、边界清晰;用免费/小型模型时,可能生成粗糙甚至错误的流程,**反而干扰后续任务**。
**配置认知 bug**
有用户报告 issue #13965:agent 在处理 provider 配置时,混淆了"当前运行时 provider"和"可用 providers 列表",产生了不必要的修改意图。这类 bug 说明 agent 的"自我认知"(对自身配置状态的理解)还不够 robust。
### 9.3 迁移潮的真实动机
部分分析文章提到 OpenClaw 的"512 个漏洞和 335 个恶意 skills"推动了迁移。这个数字需要谨慎对待——它可能来自某个特定的安全审计报告,而不一定是全局统计。但**安全顾虑确实是真实动机之一**:Hermes 的 Docker 默认安全加固、SSH 沙箱模式、以及更封闭的技能生成机制(自己写,而不是从社区下载),确实降低了供应链攻击面。
### 9.4 成熟度评估
| 维度 | 评分(1-5) | 说明 |
|------|-------------|------|
| 核心功能稳定性 | 4 | CLI、Gateway、记忆系统基本可用,但 Windows 和边缘平台有 bug |
| 学习循环有效性 | 3.5 | 顶级模型下表现优秀,中低端模型下表现不稳定 |
| 文档与上手体验 | 4.5 | 官方文档覆盖全面,`hermes setup` 向导降低了门槛 |
| 生态与社区 | 4 | stars 增长快,awesome-hermes-agent 等社区资源涌现 |
| 企业就绪度 | 3 | 多平台支持强,但 RBAC、审计日志、SSO 等企业特性弱于 Eigent 等竞品 |
---
## 十、总结:它值得你的时间吗?
### 10.1 费曼式一句话总结
> Hermes Agent 不是最聪明的实习生,但它是一个**会写笔记、会整理 SOP、而且越干越快**的实习生。如果你愿意每天花时间教它,三个月后它会比任何新招的人都更懂你的项目。
### 10.2 适用场景
**适合:**
- 有周期性任务(日报、周报、监控、备份)的个人或小团队。
- 希望 agent 能"记住"项目细节,而不是每次重新交代背景的技术负责人。
- 重视数据隐私、想要 self-host 的用户(所有记忆本地存储,无强制云同步)。
- 需要多平台接入(Telegram + Slack + 微信)的跨地域团队。
- 对 AI 研究感兴趣、想收集工具调用轨迹用于模型训练的研究者。
**不适合:**
- 追求"开箱即用海量插件"的用户(OpenClaw 的生态仍然更大)。
- 需要严格企业治理(RBAC、审计、合规)的大型组织(Eigent 或 Claude Cowork 更合适)。
- 只想用最强模型做一次性复杂推理、不在乎记忆的人(直接用 Claude Code 或 Cursor 更简单)。
- Windows 原生环境用户(目前体验不佳)。
### 10.3 最后的诚实判断
Hermes Agent 的"内置学习循环"不是一个营销 buzzword,它有具体的实现机制:15 次工具调用的复盘节拍、FTS5+LLM 的混合检索、Honcho 的辩证式用户建模。这些设计在开源 agent 领域确实有差异化。
但它也不是银弹。**学习效果的上限取决于你喂给它的模型质量,它的 Windows 支持仍然粗糙,它的企业级治理功能还在早期阶段。**
最准确的定位是:它是**当前开源生态中,在"持续性"和"自改进"这两个维度上走得最远的 agent 框架**。如果你相信 AI 助手的价值在于长期陪伴和知识积累,而不是单次对话的惊艳,Hermes 是目前最值得押注的选项之一。
---
*报告完成时间:2026-05-02*
*参考来源:Nous Research 官方文档、GitHub Issues、社区博客、Stanford HAI AI Index 2026、以及多篇第三方对比分析。*
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!