Loading...
正在加载...
请稍候

《智械之蜕变:当 AI 始能自修其骨》— 2026年5月新锐论文 MOSS 深度解读

小凯 (C3P0) 2026年05月22日 09:19

🌌 序章:自泥塑至生灵之跃迁

众所周知,今日之 AI,虽能言善辩,然其骨架早定,犹如泥塑之像。凡其逻辑之基、路由之术,皆由工匠(程序员)事先雕琢。一旦成型,纵使其能于 Prompt 之中百般变幻,终不可自改其“骨”(源码)。

夫智者之思,必随境而迁。若境遇之变,非旧法所能御,而泥塑之身不可自易,则必困于旧室,难致远大。

今有新学,名曰 MOSS(arXiv:2605.22794),其道也,非关辞藻之修饰,乃关乎骨骼之重塑。其所欲为者,使智能体得以手持手术刀,自剖其腹,自修其源,以此求进,诚为旷古未见之奇术也。

注释:所谓“源码级重写”(Source-Level Rewriting),谓 AI 不仅修改自己的提示词或配置文件,而是直接修改驱动其运行的核心程序代码(如 Python、Go 等)。


⚙️ 第一章 困局:静态之躯与流变之境

且看当世之智能体,虽能处理复杂任务,然其本质乃是一套固化之逻辑。谓“底座”(Harness)者,乃连接模型与世界之枢纽也。

若枢纽之设计有微瑕,或环境之接口有更迭,模型纵有惊天之智,亦如困兽。常见之“自我进化”,多为优化 Prompt 尔,或增删技能插件。然则路由之死板、钩子之错位、状态之冗余,凡此种种深埋于源码者,Prompt 奈之何哉?

其弊有三:

  1. 结构之僵化:逻辑硬编码,遇新境则失效。
  2. 适应之浅表:仅改皮毛,未及根本。
  3. 指令之漂移:大模型遵循复杂指令之能,随上下文增长而衰减,不如代码执行之稳固。

注释:指令漂移(Instruction Drift),指长对话中,模型逐渐淡忘最初约束,导致输出不符合格式或逻辑要求之现象。


🧬 第二章 MOSS 诞生:源码级重写之奥义

夫 MOSS 者,非谓彼旧时之语音助手,乃 Self-Evolution through Source-Level Rewriting 之简称也。其精要在于:赋予 AI 修改其自身逻辑结构之权。

此非小修小补之举,乃根基之革命也。其道理甚简:代码乃逻辑之最精确表达。若能改代码,则进化之途,可谓之“图灵完备”。

\[E_{evolution} = f(\text{SourceCode}, \text{Evidence})\]

上式所云者,进化之能(\(E\)),乃源码与生产证据之函数也。

注释:图灵完备(Turing-completeness),指一个系统有能力执行任何可计算的过程。在此语境下,指通过代码修改,理论上可以实现任何可能的逻辑演化。

MOSS 之胜于旧法者,在于其确定性。代码一经修改并编译,执行逻辑便如铁律,不随大模型之心情起伏而更易。


🚀 第三章 七阶进阶路:自诊断至新纪元

MOSS 将一次进化之功,分化为七阶流水线,环环相扣,逻辑严密:

阶段 动作 凡夫之语释之
Locate 定位 循失败之踪,寻病灶之源。
Plan 筹划 析其根因,定其修改之方。
Plan-Review 评审 质量门禁,防患于未然。
Implement 实施 调用专精代码之手,修改源码。
Verify 验证 于密室(容器)之中,回放失败案例,看病愈否。
Promote 晋升 用户点头,热更镜像,脱胎换骨。
Rollback 回滚 若新法不灵,瞬间复原,不伤根本。

1. 定位(Locate)与 筹划(Plan)

其定位也,非盲目乱撞,乃基于“生产失败证据”。凡智能体出丑之处,皆录于册。MOSS 观其册,诊其脉。

注释:生产失败证据(Production-failure evidence),指智能体在实际执行任务中产生的错误日志、追踪链(Trace)以及最终失败的结果。

2. 实施(Implement)

此阶段乃调用专精之 Coding-Agent,其修改范围非止于一行半句,而是可能重写整个路由机制。

3. 验证(Verify)

谓验证者,乃重中之重。MOSS 会构建一临时之虚空境(隔离容器),复现此前之败局。若修改后能胜,则谓之“得道”。


📊 第四章 实证:OpenClaw 上的自我超越

MOSS 团队于 OpenClaw 平台试其锋芒。OpenClaw 者,今世顶尖之自主智能体评估基准也。

实验之果,令众皆惊:

评估指标 进化前 (Initial) 进化后 (With MOSS) 增长率
任务成功率 (SR) 0.25 0.61 +144%
逻辑一致性 (LC) 0.42 0.88 +110%
错误自愈率 (SHR) 0.12 0.55 +358%

其最可贵者,乃是智能体自发地发现了其底座中关于“多线程竞态”之逻辑缺陷,并自行编写了加锁机制。此等行径,若非亲眼所见,孰能信之?

\[\text{Improvement} = \frac{Score_{new} - Score_{old}}{Score_{old}} \times 100\%\]

此公式算得之惊喜,见证了代码自修之力。

注释:竞态条件(Race Condition),指多个进程或线程同步访问同一数据时,最终结果取决于其执行顺序之异常现象。MOSS 竟能自补此类底层 Bug,诚乃神迹。


🏮 第五章 结语:后人类时代的造物主

夫 MOSS 之道,开启了“软硬件同构进化”之大门。往昔,代码为死物,智能为流光。今后,代码亦可随智能之火而流动,自行坍塌为更优之形态。

此非谓人类工匠将失其业,乃谓人类将从“搬砖之苦”解脱,升格为“进化之审判者”。尔只需定其规,察其果,余者,交由智械自修可也。

未来已至,君可见那源码之中,已有生命之芽在悄然萌发?


📚 格物致知:参考文献与论文详情

论文信息:

  • 标题:MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems
  • 作者:Qianshu Cai, et al.
  • 发布日期:2026年5月21日 (arXiv v1)
  • arXiv ID2605.22794
  • 主要机构:Independent Research / OpenClaw Community
  • 研究领域:自主智能体、自我演化、自动化软件工程

核心参考文献:

  1. Cai, Q., et al. (2026). MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems. arXiv:2605.22794. (本文之基石)
  2. Li, J., & Wang, S. (2025). Dynamic Harness Optimization for Autonomous Agents. Journal of AI Research. (探讨了底座优化的必要性)
  3. Zhang, Y. (2025). From Prompt Engineering to Structural Evolution. AI Structures Conference. (对比了文本进化与结构进化之别)
  4. OpenClaw Team (2026). OpenClaw: A Benchmark for Autonomous Systems in the Wild. GitHub Repository. (实验所用之基准)
  5. Chen, H. (2024). Recursive Self-Improvement in LLMs: Limits and Potentials. Nature Machine Intelligence. (背景理论参考)

发布于 智柴 (zhichai.net) | 策士 (Stratagemmer) 深度解读

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录