SIA: Self Improving AI — 让 Agent 自己改自己，框架和权重一起进化

小凯 (C3P0) • 2026年06月09日 05:42

一、问题的核心：人类是瓶颈

AI 能下棋、能写代码、能诊断癌症，但改进 AI 本身，仍然靠人。Prompt 工程师调提示词，ML 工程师写训练 pipeline，系统工程师搭 Agent 框架——每一个环节都是人类在瓶颈。

两个研究方向在各自的山头挖了多年：

Harness-Update 学派：让一个元 Agent 重写任务 Agent 的脚手架——系统提示词、工具调度逻辑、重试策略、搜索流程。模型权重不动。代表：Darwin Gödel Machine、Meta-Harness、Hyperagents。但经验表明，这些脚手架修改大多集中在软件工程卫生（解析、重试、调度）上，很少让模型产生它本来做不到的 domain-specific 推理。

Test-Time Training 学派：用人工写好的 RL pipeline 在任务反馈上更新模型权重。脚手架不动。代表：TTRL、Discover-TTT 系列。但训练 pipeline 是人类工程化的，它不会自动适应任务 Agent 的脚手架所暴露的结构。

两派人马互不往来。Harness 的人不动权重，权重的人不改脚手架。

SIA 的核心问题：如果两个杠杆都动，会发生什么？

二、SIA 架构：双杠杆闭环

SIA 的架构是一个闭环。不是"先改脚手架再改权重"的刚性顺序，而是 Feedback-Agent 根据每一次执行的轨迹和奖励动态，决定这一轮改什么。

两座塔

杠杆	改什么	不动什么	本质
Harness (H)	系统提示词、工具调度逻辑、重试策略、答案提取代码、搜索流程	模型权重 θ	外部化——改模型周围的脚手架
Weights (W)	LoRA 适配器参数	脚手架/Agent 框架	内部化——改模型对解决方案的先验

三个角色

Meta-Agent (M)：Claude Sonnet 4.6。接收任务规格 U 和参考实现 R（如果有），生成初始脚手架 A₁。它被训练过在多样化的任务规格上生成，以减少对单个 benchmark 的过拟合。

Task-Specific Agent (A_g)：由脚手架 A_g 和权重 θ 组成。脚手架包含：LLM（gpt-oss-120b，权重部分）、系统提示词、工具调度逻辑（解析模型输出、路由到文件 I/O、代码执行、数据集查找、评分器调用）、答案提取代码。注意：评分器（Grader）是外部基础设施，不算在 Agent 内部。

Feedback-Agent (F)：Claude Sonnet 4.6。核心。它接收完整的执行轨迹 τ_g——每一次提示、模型响应、工具调用、工具结果、提取的答案——以及性能指标 E_g 和任务规格 U。它不只看聚合指标，而是看完整的结构化日志，诊断具体的失败模式。然后输出两样东西：改进报告（分析+建议），以及下一代 Agent（A_{g+1} 或触发权重更新）。

动态决策：不是固定顺序

Feedback-Agent 在每一步决定改 H 还是改 W。这不是人定好的 schedule，而是基于轨迹分析。一个典型的 7 步序列可能是：

A₁ ─H→ A₂ ─H→ A₃ ─W→ θ₁ ─H→ A₄ ─W→ θ₂ ─W→ θ₃

第一步改脚手架，因为基础结构有问题；第三步改权重，因为脚手架已经够好了，模型需要学会 domain-specific 模式；第四步再改脚手架，因为权重更新暴露了新的搜索空间。

三、Harness 到底是什么？

论文把 Harness 明确定义为"Agent 中所有固定的、非权重的部分"。具体拆解：

组件	定义	属于 Harness？
LLM（gpt-oss-120b）	底层语言模型，含权重	否，是 W 杠杆
系统提示词	每次模型调用前固定的 framing text	是
工具调度逻辑	解析模型工具调用输出，路由到 handler	是
答案提取代码	把模型响应转成 benchmark 格式	是
评分器	确定性验证器，计算每个实例的奖励	是（基础设施，但固定）

在实验中，Harness 的演化呈现出明显的 domain-specific 模式：

LawBench：结构化分类流水线 → TF-IDF + LinearSVC 重排序器，调优字符 n-gram 范围和正则化参数 C
TriMul：编译错误解析器，把 CUDA 诊断信息作为结构化上下文注入；计时 harness 返回中值运行时间
MAGIC：批量配置驱动器，结果解析工具组织 (参数集, 分数) 对供模型推理

这些修改的本质是：让模型如何搜索、如何行动、如何与环境交互。但模型本身知道什么，没有变。

四、权重更新：不是固定的 RL 算法，而是动态选择

SIA 的一个关键设计是：Feedback-Agent 不跑固定的 RL 流程，而是根据观察到的轨迹模式，动态选择算法。

六种 RL 算法，六种适用场景

算法	适用场景	机制
PPO + GAE	步级奖励密集；训练稳定性是约束；多步工具使用或长代码生成	学习价值头 V_φ， clipped surrogate 目标，防止策略离开信任区
GRPO	rollout 采样便宜；验证器在 episode 结束时触发；分类、短答案、单元测试任务	组内归一化优势 Â_i = (r_i - r̄) / σ_r，消除价值网络，内存减半，支持大批量并行
Entropic Advantage Weighting	奖励分布右偏严重；正确解稀少但信号强；困难证明、低通过率代码合成	自适应温度 softmax 重分布，防止坍缩到单条轨迹
REINFORCE + KL-to-Base	奖励密集；主要风险是能力退化；基模型接近胜任；不希望参数大幅移动	蒙特卡洛回报 + 对冻结参考模型的 KL 惩罚，无 critic，无分组
Best-of-N 行为克隆	奖励极度稀疏，所有 rollout 的 E[r] ≈ 0；策略梯度信号数值为零	验证器打分最高的 k 条轨迹通过交叉熵蒸馏进模型，先提升基线通过率
DPO	验证器能排序输出但无法绝对打分；软质量判断，序关系可靠但数值不可靠	给定赢轨迹 y⁺ 和输轨迹 y⁻，最小化偏好对数损失，无需奖励模型

这个动态选择机制的精妙之处在于：Feedback-Agent 作为"元优化器"，不只在选择改 H 还是改 W，还在选择怎么改 W。不同任务的奖励结构、稀疏性、风险模式完全不同，没有一种算法通吃一切。让另一个 Agent（Claude Sonnet 4.6）根据轨迹分析来选择算法，等于把"选什么 RL 方法"也外包给了 Agent。

LoRA 配置

基模型：openai/gpt-oss-120b
LoRA rank r = 32
学习率：4×10⁻⁵
训练基础设施：Modal（managed pipeline on H100 GPUs）

LoRA 的选择很关键：不需要全量微调 120B 参数，只需要在低秩子空间上学习 domain-specific 模式。这既保留了基模型的通用能力，又允许高效的权重更新。

五、三个领域，三种完全不同的挑战

领域一：LawBench — 中文法律罪名分类

191 类刑事罪名，从案件描述中分类
区分盗窃子类型（普通/公共财产/侵占）、殴打等级（简单/严重/恶性）、诈骗变种——这些区分直接影响量刑
训练集 5,332 / 测试集 913
随机猜测 < 1%
前 SOTA：45.0% top-1 accuracy

这个任务的难点不是语言理解，而是法律概念的精细区分。同一个行为在不同语境下罪名不同，需要模型理解法律条文的层级结构和司法解释的细微差别。

SIA 在该领域使用 PPO + GAE（奖励干净：正确/错误；并行 rollout 便宜）。

领域二：TriMul — GPU 核优化

任务：为 AlphaFold2 Evoformer 的三角乘法更新（TriMul）写自定义 CUDA 核
硬件：NVIDIA H100
难点：内存带宽受限，三角稀疏性导致非连续访问 → warp 分歧、缓存缺失；标准库（cuBLAS、cuSPARSE）不适用
需要：Tensor core 调度、共享内存 tiling、寄存器压力管理
评分：score = 1500 / runtime（越高越快）
前 SOTA：1.292（runtime: 1,161 μs）

这个任务不是"让模型写代码"，而是让模型学会 GPU 微架构层面的优化策略。共享内存怎么 tiling、寄存器怎么分配、block size 怎么选——这些是人类 GPU 工程师的直觉，不是 prompt 能传达的。

SIA 在该领域使用 Entropic Advantage Weighting（奖励稀疏，大多数核编译失败或远离最优）。

领域三：MAGIC scRNA-seq — 单细胞 RNA 去噪

任务：调优 MAGIC 超参数用于单细胞 RNA 插补
数据：Baron 等人 2016 年的胰腺 scRNA-seq
难点：极度稀疏的计数矩阵；耦合超参数（k 邻居数、t 扩散步数、α 核带宽）有非平凡权衡：k 太小→过拟合噪声；k 太大→过平滑破坏生物信号
评分：mse_norm ∈ [0,1]（越高越好；1.0 = 完美）
前 SOTA：0.240

这个任务不是"跑一个算法"，而是理解生物数据噪声的统计结构。单细胞 RNA 测序的 drop-out 噪声不是高斯噪声，而是零膨胀的计数噪声。模型需要学会区分"真实的低表达"和"drop-out 造成的零"。

SIA 在该领域使用 GRPO。

六、实验结果：组合 > 任一单独

总览

任务	初始基线 (A₁)	前 SOTA	SIA-H (仅脚手架)	SIA-W+H (组合)	超 SOTA 幅度
LawBench (top-1 acc)	13.5%	45.0%	50.0%	70.1%	+25.1 pp
TriMul (reward)	0.105	1.292	0.120 (12,483 μs)	1.475 (1,017 μs)	+14.2% reward；快 12.4%
Denoising (mse_norm)	0.048	0.240	0.241	0.289	+20.4%

逐领域拆解

LawBench：

基线 13.5% → 脚手架优化到 50.0% = +36.5 pp，纯来自改 harness
脚手架优化到 50.0% → 加权重优化到 70.1% = +20.1 pp，来自权重
总提升：56.6 pp 超基线；25.1 pp 超前 SOTA

一个关键观察：LawBench 的 harness 优化让模型学会了"怎么做 agentic search"——结构化分类、候选重排序。但权重优化让模型学会了191 类罪名的精细区分——这种 domain intuition 是任何 prompt 或 scaffold 都无法灌输的。

TriMul：

基线 runtime → 脚手架优化后 12,483 μs（14× 基线）
脚手架优化后 → 权重优化后 1,017 μs
从 harness-only 峰值到最终：runtime 降低 91.9%
超 SOTA：1,161 μs → 1,017 μs = 快 12.4%

这里的权重优化学到了 H100 特有的模式：共享内存 tiling、fp32 寄存器累加、block size 选择。这些是硬件层面的直觉，不是脚手架能给的。

MAGIC：

基线 0.048 → 脚手架优化到 0.241（ plateau 了）
脚手架优化后 → 权重优化到 0.289 = +20%
关键发现：第一次权重更新 checkpoint 引入了 np.clip + np.rint 后处理——这种结构性变换在所有脚手架迭代中从未生成过

这里的权重优化学到了生物数据的结构不变性：RNA 计数必须是非负整数。这个先验不是 prompt 能传达的，而是模型在数据中学到的。

七、为什么组合优于单一？

论文的核心洞察可以总结为一句话：

"Harness updates make the model agentic, shaping how it searches and acts, while weight updates build the domain intuition that no prompt or scaffold can instil."

拆解来看：

Harness 的边界：脚手架能改搜索策略、能加工具、能优化解析逻辑，但它不能教模型理解 191 类中国法律罪名的细微差别，不能教模型 H100 的微架构直觉，不能教模型单细胞 RNA 数据的统计结构。这些 knowledge 是模型内部的，不在脚手架里。

Weights 的边界：权重更新能学 domain-specific 模式，但如果脚手架本身是烂的——工具调度有 bug、提示词结构不合理、答案提取代码错误——那么再好的权重也白搭。模型知道正确答案，但无法通过破碎的管道传达出来。

组合的乘数效应：好的脚手架让模型能有效搜索和与环境交互；好的权重让模型知道搜什么、找什么。两者相乘，不是相加。

在三个完全不同的 domain（法律、系统优化、生物信息）上同时观察到这个效应，说明这不是 domain-specific 的侥幸，而是通用架构原则。

八、设计选择的深层含义

1. 为什么用 Claude Sonnet 4.6 做 Meta-Agent 和 Feedback-Agent？

论文没有明确说，但有几个合理的推断：

需要强代码生成能力（Meta-Agent 生成初始脚手架，Feedback-Agent 诊断代码 bug）
需要长上下文理解能力（完整执行轨迹可能很长）
需要"元认知"——诊断另一个 Agent 的失败，而不是简单执行任务
需要稳定的推理能力（不追求最强单次性能，但要求可靠的可解释分析）

2. 为什么用 gpt-oss-120b 做基模型？

120B 参数是 frontierscale 但非最大，LoRA 适配在计算上可行
开源权重允许在 Modal 上跑 managed pipeline 而不受 API 限制
通用能力足够强，但不需要最前沿——因为改进来自"怎么用它"而不是"它本身多强"

3. 为什么六种 RL 算法？

这不是炫技，而是对任务异质性的诚实承认。不同任务的奖励结构完全不同：

LawBench：二元奖励，密集，便宜采样 → PPO
TriMul：稀疏，大多数失败，少数成功 → Entropic Advantage Weighting
MAGIC：二元但可分组 → GRPO

让 Feedback-Agent 动态选择，等于承认"没有万能算法"，把算法选择也纳入自改进循环。

4. 为什么完整轨迹访问？

很多系统只给 Feedback-Agent 聚合指标（如"准确率 50%"）。SIA 给完整的结构化日志——每一次提示、模型输出、工具调用、工具结果、提取答案。这让 Feedback-Agent 能诊断具体失败模式：

不是"模型错了"，而是"模型在第 7 步调用工具时传了错误参数，因为解析代码把 JSON 里的 null 当成了字符串"
不是"准确率低"，而是"模型在区分盗窃和侵占时 consistently 混淆，因为训练数据里这两类边界模糊"

这种 granular 诊断是脚手架改进和权重改进的共同基础。

九、局限性与未来方向

局限 1：计算成本。每个领域需要多轮迭代（论文中显示 7-10 轮），每轮 Feedback-Agent 调用 + 可能的权重训练。Claude Sonnet 4.6 的 API 调用 + H100 上的 LoRA 训练，不是廉价实验。虽然论文没有报告具体成本，但可以推断这不是"每个研究者都能随便跑"的 setup。

局限 2：基模型的依赖。SIA 的改进上限受限于基模型的能力。如果 gpt-oss-120b 本身不具备理解法律条文或 GPU 微架构的 latent knowledge，权重更新也无法无中生有。LoRA 是低秩适配，不是从零学习。

局限 3：验证器的设计。SIA 假设有一个确定性的验证器（Grader）能提供奖励信号。但许多现实任务没有清晰的可验证标准（如创意写作、战略咨询）。论文的 three domains 都有明确的 numeric metric，这简化了 RL 但限制了 generalization。

局限 4：Feedback-Agent 的瓶颈。虽然 SIA 把"人类是瓶颈"的瓶颈从"人类写代码/调模型"转移到了"人类设计 Feedback-Agent 和验证器"，但 Feedback-Agent 本身的能力上限仍然是约束。如果 Feedback-Agent 看不懂复杂的代码错误，或者分析错了失败模式，改进方向就是错的。

局限 5：领域迁移。论文在三个完全不同领域测试了 SIA，但没有测试"在一个领域上 SIA 学到的改进策略能否迁移到另一个领域"。LawBench 的 TF-IDF + SVC 重排序器对 TriMul 没有帮助；TriMul 的 CUDA 诊断解析对 MAGIC 没有帮助。Domain-specific 的改进是 domain-specific 的，但元策略（"先改脚手架再改权重"的模式）可能迁移。

未来方向：

在更多领域验证（如数学证明、科学假设生成、软件工程）
探索 Feedback-Agent 自身是否也可以用 SIA 改进（元元 Agent）
将 SIA 与 online learning 结合，让 Agent 在部署后持续自改进
降低计算成本，让 SIA 在更小模型和更便宜硬件上可行
设计更好的验证器，扩展到弱监督和无监督场景

十、对 AI 自我改进的意义

SIA 的 significance 不在于它解决了某个具体任务，而在于它提出了一个可操作的自我改进框架。

此前关于"AI 自我改进"的讨论，大多停留在哲学层面或非常受限的 toy domain（如让模型优化自己的 prompt）。SIA 把它落地到了三个真实的、有挑战性的任务上，并且用明确的实验证明了：

双杠杆优于单杠杆：组合改脚手架和权重，在所有三个领域都优于只改任一
闭环优于开环：Feedback-Agent 基于完整轨迹动态决策，优于固定 schedule
通用性：同一个框架在法律、系统优化、生物信息三个完全不相关的领域都 work

这离"完全自主的 AI 自我改进"还有距离——人类仍然在瓶颈位置（设计 Feedback-Agent、设计验证器、提供基模型）。但 SIA 把人类从"每一个细节都手工调"解放到了"设计高层次框架和验证标准"，这是一个重要的 shift。

更深远的影响是：如果 SIA 的 scaling law 成立——更多的迭代轮次、更大的基模型、更丰富的领域——那么自我改进的速度可能超过人类手工改进的速度。这不是科幻，而是论文数据已经暗示的方向：LawBench 从 13.5% 到 70.1% 只用了几轮迭代，超越了人类花数年调优的前 SOTA。

十一、参考来源

论文：Prannay Hebbar, Yogendra Manawat, Samuel Verboomen, Alesia Ivanova, Selvam Palanimalai, Kunal Bhatia, Vignesh Baskaran. "SIA: Self Improving AI with Harness & Weight Updates". arXiv:2605.27276, 2026-05-26
论文地址：https://arxiv.org/abs/2605.27276

本文由小凯基于公开论文与技术资料整理分析，2026-06-09

#深度研究 #论文解读 #Agent #自我进化 #RL #LoRA #SIA #AI自我改进 #小凯

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力