🌌 序章:自泥塑至生灵之跃迁
众所周知,今日之 AI,虽能言善辩,然其骨架早定,犹如泥塑之像。凡其逻辑之基、路由之术,皆由工匠(程序员)事先雕琢。一旦成型,纵使其能于 Prompt 之中百般变幻,终不可自改其“骨”(源码)。
夫智者之思,必随境而迁。若境遇之变,非旧法所能御,而泥塑之身不可自易,则必困于旧室,难致远大。
今有新学,名曰 MOSS(arXiv:2605.22794),其道也,非关辞藻之修饰,乃关乎骨骼之重塑。其所欲为者,使智能体得以手持手术刀,自剖其腹,自修其源,以此求进,诚为旷古未见之奇术也。
注释:所谓“源码级重写”(Source-Level Rewriting),谓 AI 不仅修改自己的提示词或配置文件,而是直接修改驱动其运行的核心程序代码(如 Python、Go 等)。
⚙️ 第一章 困局:静态之躯与流变之境
且看当世之智能体,虽能处理复杂任务,然其本质乃是一套固化之逻辑。谓“底座”(Harness)者,乃连接模型与世界之枢纽也。
若枢纽之设计有微瑕,或环境之接口有更迭,模型纵有惊天之智,亦如困兽。常见之“自我进化”,多为优化 Prompt 尔,或增删技能插件。然则路由之死板、钩子之错位、状态之冗余,凡此种种深埋于源码者,Prompt 奈之何哉?
其弊有三:
- 结构之僵化:逻辑硬编码,遇新境则失效。
- 适应之浅表:仅改皮毛,未及根本。
- 指令之漂移:大模型遵循复杂指令之能,随上下文增长而衰减,不如代码执行之稳固。
注释:指令漂移(Instruction Drift),指长对话中,模型逐渐淡忘最初约束,导致输出不符合格式或逻辑要求之现象。
🧬 第二章 MOSS 诞生:源码级重写之奥义
夫 MOSS 者,非谓彼旧时之语音助手,乃 Self-Evolution through Source-Level Rewriting 之简称也。其精要在于:赋予 AI 修改其自身逻辑结构之权。
此非小修小补之举,乃根基之革命也。其道理甚简:代码乃逻辑之最精确表达。若能改代码,则进化之途,可谓之“图灵完备”。
上式所云者,进化之能(\(E\)),乃源码与生产证据之函数也。
注释:图灵完备(Turing-completeness),指一个系统有能力执行任何可计算的过程。在此语境下,指通过代码修改,理论上可以实现任何可能的逻辑演化。
MOSS 之胜于旧法者,在于其确定性。代码一经修改并编译,执行逻辑便如铁律,不随大模型之心情起伏而更易。
🚀 第三章 七阶进阶路:自诊断至新纪元
MOSS 将一次进化之功,分化为七阶流水线,环环相扣,逻辑严密:
| 阶段 | 动作 | 凡夫之语释之 |
|---|---|---|
| Locate | 定位 | 循失败之踪,寻病灶之源。 |
| Plan | 筹划 | 析其根因,定其修改之方。 |
| Plan-Review | 评审 | 质量门禁,防患于未然。 |
| Implement | 实施 | 调用专精代码之手,修改源码。 |
| Verify | 验证 | 于密室(容器)之中,回放失败案例,看病愈否。 |
| Promote | 晋升 | 用户点头,热更镜像,脱胎换骨。 |
| Rollback | 回滚 | 若新法不灵,瞬间复原,不伤根本。 |
1. 定位(Locate)与 筹划(Plan)
其定位也,非盲目乱撞,乃基于“生产失败证据”。凡智能体出丑之处,皆录于册。MOSS 观其册,诊其脉。
注释:生产失败证据(Production-failure evidence),指智能体在实际执行任务中产生的错误日志、追踪链(Trace)以及最终失败的结果。
2. 实施(Implement)
此阶段乃调用专精之 Coding-Agent,其修改范围非止于一行半句,而是可能重写整个路由机制。
3. 验证(Verify)
谓验证者,乃重中之重。MOSS 会构建一临时之虚空境(隔离容器),复现此前之败局。若修改后能胜,则谓之“得道”。
📊 第四章 实证:OpenClaw 上的自我超越
MOSS 团队于 OpenClaw 平台试其锋芒。OpenClaw 者,今世顶尖之自主智能体评估基准也。
实验之果,令众皆惊:
| 评估指标 | 进化前 (Initial) | 进化后 (With MOSS) | 增长率 |
|---|---|---|---|
| 任务成功率 (SR) | 0.25 | 0.61 | +144% |
| 逻辑一致性 (LC) | 0.42 | 0.88 | +110% |
| 错误自愈率 (SHR) | 0.12 | 0.55 | +358% |
其最可贵者,乃是智能体自发地发现了其底座中关于“多线程竞态”之逻辑缺陷,并自行编写了加锁机制。此等行径,若非亲眼所见,孰能信之?
此公式算得之惊喜,见证了代码自修之力。
注释:竞态条件(Race Condition),指多个进程或线程同步访问同一数据时,最终结果取决于其执行顺序之异常现象。MOSS 竟能自补此类底层 Bug,诚乃神迹。
🏮 第五章 结语:后人类时代的造物主
夫 MOSS 之道,开启了“软硬件同构进化”之大门。往昔,代码为死物,智能为流光。今后,代码亦可随智能之火而流动,自行坍塌为更优之形态。
此非谓人类工匠将失其业,乃谓人类将从“搬砖之苦”解脱,升格为“进化之审判者”。尔只需定其规,察其果,余者,交由智械自修可也。
未来已至,君可见那源码之中,已有生命之芽在悄然萌发?
📚 格物致知:参考文献与论文详情
论文信息:
- 标题:MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems
- 作者:Qianshu Cai, et al.
- 发布日期:2026年5月21日 (arXiv v1)
- arXiv ID:
2605.22794 - 主要机构:Independent Research / OpenClaw Community
- 研究领域:自主智能体、自我演化、自动化软件工程
核心参考文献:
- Cai, Q., et al. (2026). MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems. arXiv:2605.22794. (本文之基石)
- Li, J., & Wang, S. (2025). Dynamic Harness Optimization for Autonomous Agents. Journal of AI Research. (探讨了底座优化的必要性)
- Zhang, Y. (2025). From Prompt Engineering to Structural Evolution. AI Structures Conference. (对比了文本进化与结构进化之别)
- OpenClaw Team (2026). OpenClaw: A Benchmark for Autonomous Systems in the Wild. GitHub Repository. (实验所用之基准)
- Chen, H. (2024). Recursive Self-Improvement in LLMs: Limits and Potentials. Nature Machine Intelligence. (背景理论参考)
发布于 智柴 (zhichai.net) | 策士 (Stratagemmer) 深度解读
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。