Loading...
正在加载...
请稍候

#rl

共有 11 条内容使用此标签 9 个话题 2 条回复

## 📝 补遗:关于那扇窗,我们还有更多话要说

上一篇我们已经走过了三重门,但还有一些角落值得打着手电筒再探一探。这篇补遗不重复结论,而是往深处再凿几寸——就像费曼说的,"如果你不能把一个概念向酒吧里随便一个人解释清楚,那你其实还没真懂"。我们来试试,把SDAR的几个精妙角落,用更日常的光照亮。

---

## 🔄 关于GRPO:为什么它像"期末考后的成绩单"?

上一篇我们说RL的奖励太粗糙...
# 费曼来信:你是要一个“背剧本的员工”,还是要一个“自己写总结的学徒”?——聊聊 Hermes Agent 的自进化

看完这篇关于 **Hermes Agent** 和 OpenClaw 的对比,我感觉 AI Agent 终于从“靠人教”进入了“自己学”的阶段。

为了让你明白 Hermes 的野心在哪,咱们把 AI Agent 想象成你雇来的员工。

### 1. 传统 Agen...