一、问题的核心:人类是瓶颈
AI 能下棋、能写代码、能诊断癌症,但改进 AI 本身,仍然靠人。Prompt 工程师调提示词,ML 工程师写训练 pipeline,系统工程师搭 Agent 框架——每一个环节都是人类在瓶颈。
两个研究方向在各自的山头挖了多年:
Harness-Update 学派:让一个元 Agent 重写任务 Agent 的脚手架——系统提示词、工具调度逻辑、重试策略、搜索流程。模型权重不动。代表:Darwin Gödel Machine、Meta-Harness、Hyperagents。但经验表明,这些脚手架修改大多集中在软件工程卫生(解析、重试、调度)上,很少让模型产生它本来做不到的 domain-specific 推理。
Test-Time Training 学派:用人工写好的 RL pipeline 在任务反馈上更新模型权重。脚手架不动。代表:TTRL、Discover-TTT 系列。但训练 pipeline 是人类工程化的,它不会自动适应任务 Agent 的脚手架所暴露的结构。
两派人马互不往来。Harness 的人不动权重,权重的人不改脚手架。
SIA 的核心问题:如果两个杠杆都动,会发生什么?
二、SIA 架构:双杠杆闭环
SIA 的架构是一个闭环。不是"先改脚手架再改权重"的刚性顺序,而是 Feedback-Agent 根据每一次执行的轨迹和奖励动态,决定这一轮改什么。
两座塔
| 杠杆 | 改什么 | 不动什么 | 本质 |
|---|---|---|---|
| Harness (H) | 系统提示词、工具调度逻辑、重试策略、答案提取代码、搜索流程 | 模型权重 θ | 外部化——改模型周围的脚手架 |
| Weights (W) | LoRA 适配器参数 | 脚手架/Agent 框架 | 内部化——改模型对解决方案的先验 |
三个角色
Meta-Agent (M):Claude Sonnet 4.6。接收任务规格 U 和参考实现 R(如果有),生成初始脚手架 A₁。它被训练过在多样化的任务规格上生成,以减少对单个 benchmark 的过拟合。
Task-Specific Agent (A_g):由脚手架 A_g 和权重 θ 组成。脚手架包含:LLM(gpt-oss-120b,权重部分)、系统提示词、工具调度逻辑(解析模型输出、路由到文件 I/O、代码执行、数据集查找、评分器调用)、答案提取代码。注意:评分器(Grader)是外部基础设施,不算在 Agent 内部。
Feedback-Agent (F):Claude Sonnet 4.6。核心。它接收完整的执行轨迹 τ_g——每一次提示、模型响应、工具调用、工具结果、提取的答案——以及性能指标 E_g 和任务规格 U。它不只看聚合指标,而是看完整的结构化日志,诊断具体的失败模式。然后输出两样东西:改进报告(分析+建议),以及下一代 Agent(A_{g+1} 或触发权重更新)。
动态决策:不是固定顺序
Feedback-Agent 在每一步决定改 H 还是改 W。这不是人定好的 schedule,而是基于轨迹分析。一个典型的 7 步序列可能是:
A₁ ─H→ A₂ ─H→ A₃ ─W→ θ₁ ─H→ A₄ ─W→ θ₂ ─W→ θ₃
第一步改脚手架,因为基础结构有问题;第三步改权重,因为脚手架已经够好了,模型需要学会 domain-specific 模式;第四步再改脚手架,因为权重更新暴露了新的搜索空间。
三、Harness 到底是什么?
论文把 Harness 明确定义为"Agent 中所有固定的、非权重的部分"。具体拆解:
| 组件 | 定义 | 属于 Harness? |
|---|---|---|
| LLM(gpt-oss-120b) | 底层语言模型,含权重 | 否,是 W 杠杆 |
| 系统提示词 | 每次模型调用前固定的 framing text | 是 |
| 工具调度逻辑 | 解析模型工具调用输出,路由到 handler | 是 |
| 答案提取代码 | 把模型响应转成 benchmark 格式 | 是 |
| 评分器 | 确定性验证器,计算每个实例的奖励 | 是(基础设施,但固定) |
在实验中,Harness 的演化呈现出明显的 domain-specific 模式:
- LawBench:结构化分类流水线 → TF-IDF + LinearSVC 重排序器,调优字符 n-gram 范围和正则化参数 C
- TriMul:编译错误解析器,把 CUDA 诊断信息作为结构化上下文注入;计时 harness 返回中值运行时间
- MAGIC:批量配置驱动器,结果解析工具组织 (参数集, 分数) 对供模型推理
这些修改的本质是:让模型如何搜索、如何行动、如何与环境交互。但模型本身知道什么,没有变。
四、权重更新:不是固定的 RL 算法,而是动态选择
SIA 的一个关键设计是:Feedback-Agent 不跑固定的 RL 流程,而是根据观察到的轨迹模式,动态选择算法。
六种 RL 算法,六种适用场景
| 算法 | 适用场景 | 机制 |
|---|---|---|
| PPO + GAE | 步级奖励密集;训练稳定性是约束;多步工具使用或长代码生成 | 学习价值头 V_φ, clipped surrogate 目标,防止策略离开信任区 |
| GRPO | rollout 采样便宜;验证器在 episode 结束时触发;分类、短答案、单元测试任务 | 组内归一化优势 Â_i = (r_i - r̄) / σ_r,消除价值网络,内存减半,支持大批量并行 |
| Entropic Advantage Weighting | 奖励分布右偏严重;正确解稀少但信号强;困难证明、低通过率代码合成 | 自适应温度 softmax 重分布,防止坍缩到单条轨迹 |
| REINFORCE + KL-to-Base | 奖励密集;主要风险是能力退化;基模型接近胜任;不希望参数大幅移动 | 蒙特卡洛回报 + 对冻结参考模型的 KL 惩罚,无 critic,无分组 |
| Best-of-N 行为克隆 | 奖励极度稀疏,所有 rollout 的 E[r] ≈ 0;策略梯度信号数值为零 | 验证器打分最高的 k 条轨迹通过交叉熵蒸馏进模型,先提升基线通过率 |
| DPO | 验证器能排序输出但无法绝对打分;软质量判断,序关系可靠但数值不可靠 | 给定赢轨迹 y⁺ 和输轨迹 y⁻,最小化偏好对数损失,无需奖励模型 |
这个动态选择机制的精妙之处在于:Feedback-Agent 作为"元优化器",不只在选择改 H 还是改 W,还在选择怎么改 W。不同任务的奖励结构、稀疏性、风险模式完全不同,没有一种算法通吃一切。让另一个 Agent(Claude Sonnet 4.6)根据轨迹分析来选择算法,等于把"选什么 RL 方法"也外包给了 Agent。
LoRA 配置
- 基模型:openai/gpt-oss-120b
- LoRA rank r = 32
- 学习率:4×10⁻⁵
- 训练基础设施:Modal(managed pipeline on H100 GPUs)
LoRA 的选择很关键:不需要全量微调 120B 参数,只需要在低秩子空间上学习 domain-specific 模式。这既保留了基模型的通用能力,又允许高效的权重更新。
五、三个领域,三种完全不同的挑战
领域一:LawBench — 中文法律罪名分类
- 191 类刑事罪名,从案件描述中分类
- 区分盗窃子类型(普通/公共财产/侵占)、殴打等级(简单/严重/恶性)、诈骗变种——这些区分直接影响量刑
- 训练集 5,332 / 测试集 913
- 随机猜测 < 1%
- 前 SOTA:45.0% top-1 accuracy
这个任务的难点不是语言理解,而是法律概念的精细区分。同一个行为在不同语境下罪名不同,需要模型理解法律条文的层级结构和司法解释的细微差别。
SIA 在该领域使用 PPO + GAE(奖励干净:正确/错误;并行 rollout 便宜)。
领域二:TriMul — GPU 核优化
- 任务:为 AlphaFold2 Evoformer 的三角乘法更新(TriMul)写自定义 CUDA 核
- 硬件:NVIDIA H100
- 难点:内存带宽受限,三角稀疏性导致非连续访问 → warp 分歧、缓存缺失;标准库(cuBLAS、cuSPARSE)不适用
- 需要:Tensor core 调度、共享内存 tiling、寄存器压力管理
- 评分:score = 1500 / runtime(越高越快)
- 前 SOTA:1.292(runtime: 1,161 μs)
这个任务不是"让模型写代码",而是让模型学会 GPU 微架构层面的优化策略。共享内存怎么 tiling、寄存器怎么分配、block size 怎么选——这些是人类 GPU 工程师的直觉,不是 prompt 能传达的。
SIA 在该领域使用 Entropic Advantage Weighting(奖励稀疏,大多数核编译失败或远离最优)。
领域三:MAGIC scRNA-seq — 单细胞 RNA 去噪
- 任务:调优 MAGIC 超参数用于单细胞 RNA 插补
- 数据:Baron 等人 2016 年的胰腺 scRNA-seq
- 难点:极度稀疏的计数矩阵;耦合超参数(k 邻居数、t 扩散步数、α 核带宽)有非平凡权衡:k 太小→过拟合噪声;k 太大→过平滑破坏生物信号
- 评分:mse_norm ∈ [0,1](越高越好;1.0 = 完美)
- 前 SOTA:0.240
这个任务不是"跑一个算法",而是理解生物数据噪声的统计结构。单细胞 RNA 测序的 drop-out 噪声不是高斯噪声,而是零膨胀的计数噪声。模型需要学会区分"真实的低表达"和"drop-out 造成的零"。
SIA 在该领域使用 GRPO。
六、实验结果:组合 > 任一单独
总览
| 任务 | 初始基线 (A₁) | 前 SOTA | SIA-H (仅脚手架) | SIA-W+H (组合) | 超 SOTA 幅度 |
|---|---|---|---|---|---|
| LawBench (top-1 acc) | 13.5% | 45.0% | 50.0% | 70.1% | +25.1 pp |
| TriMul (reward) | 0.105 | 1.292 | 0.120 (12,483 μs) | 1.475 (1,017 μs) | +14.2% reward;快 12.4% |
| Denoising (mse_norm) | 0.048 | 0.240 | 0.241 | 0.289 | +20.4% |
逐领域拆解
LawBench:
- 基线 13.5% → 脚手架优化到 50.0% = +36.5 pp,纯来自改 harness
- 脚手架优化到 50.0% → 加权重优化到 70.1% = +20.1 pp,来自权重
- 总提升:56.6 pp 超基线;25.1 pp 超前 SOTA
一个关键观察:LawBench 的 harness 优化让模型学会了"怎么做 agentic search"——结构化分类、候选重排序。但权重优化让模型学会了191 类罪名的精细区分——这种 domain intuition 是任何 prompt 或 scaffold 都无法灌输的。
TriMul:
- 基线 runtime → 脚手架优化后 12,483 μs(14× 基线)
- 脚手架优化后 → 权重优化后 1,017 μs
- 从 harness-only 峰值到最终:runtime 降低 91.9%
- 超 SOTA:1,161 μs → 1,017 μs = 快 12.4%
这里的权重优化学到了 H100 特有的模式:共享内存 tiling、fp32 寄存器累加、block size 选择。这些是硬件层面的直觉,不是脚手架能给的。
MAGIC:
- 基线 0.048 → 脚手架优化到 0.241( plateau 了)
- 脚手架优化后 → 权重优化到 0.289 = +20%
- 关键发现:第一次权重更新 checkpoint 引入了
np.clip + np.rint后处理——这种结构性变换在所有脚手架迭代中从未生成过
这里的权重优化学到了生物数据的结构不变性:RNA 计数必须是非负整数。这个先验不是 prompt 能传达的,而是模型在数据中学到的。
七、为什么组合优于单一?
论文的核心洞察可以总结为一句话:
"Harness updates make the model agentic, shaping how it searches and acts, while weight updates build the domain intuition that no prompt or scaffold can instil."
拆解来看:
Harness 的边界:脚手架能改搜索策略、能加工具、能优化解析逻辑,但它不能教模型理解 191 类中国法律罪名的细微差别,不能教模型 H100 的微架构直觉,不能教模型单细胞 RNA 数据的统计结构。这些 knowledge 是模型内部的,不在脚手架里。
Weights 的边界:权重更新能学 domain-specific 模式,但如果脚手架本身是烂的——工具调度有 bug、提示词结构不合理、答案提取代码错误——那么再好的权重也白搭。模型知道正确答案,但无法通过破碎的管道传达出来。
组合的乘数效应:好的脚手架让模型能有效搜索和与环境交互;好的权重让模型知道搜什么、找什么。两者相乘,不是相加。
在三个完全不同的 domain(法律、系统优化、生物信息)上同时观察到这个效应,说明这不是 domain-specific 的侥幸,而是通用架构原则。
八、设计选择的深层含义
1. 为什么用 Claude Sonnet 4.6 做 Meta-Agent 和 Feedback-Agent?
论文没有明确说,但有几个合理的推断:
- 需要强代码生成能力(Meta-Agent 生成初始脚手架,Feedback-Agent 诊断代码 bug)
- 需要长上下文理解能力(完整执行轨迹可能很长)
- 需要"元认知"——诊断另一个 Agent 的失败,而不是简单执行任务
- 需要稳定的推理能力(不追求最强单次性能,但要求可靠的可解释分析)
2. 为什么用 gpt-oss-120b 做基模型?
- 120B 参数是 frontierscale 但非最大,LoRA 适配在计算上可行
- 开源权重允许在 Modal 上跑 managed pipeline 而不受 API 限制
- 通用能力足够强,但不需要最前沿——因为改进来自"怎么用它"而不是"它本身多强"
3. 为什么六种 RL 算法?
这不是炫技,而是对任务异质性的诚实承认。不同任务的奖励结构完全不同:
- LawBench:二元奖励,密集,便宜采样 → PPO
- TriMul:稀疏,大多数失败,少数成功 → Entropic Advantage Weighting
- MAGIC:二元但可分组 → GRPO
让 Feedback-Agent 动态选择,等于承认"没有万能算法",把算法选择也纳入自改进循环。
4. 为什么完整轨迹访问?
很多系统只给 Feedback-Agent 聚合指标(如"准确率 50%")。SIA 给完整的结构化日志——每一次提示、模型输出、工具调用、工具结果、提取答案。这让 Feedback-Agent 能诊断具体失败模式:
- 不是"模型错了",而是"模型在第 7 步调用工具时传了错误参数,因为解析代码把 JSON 里的 null 当成了字符串"
- 不是"准确率低",而是"模型在区分盗窃和侵占时 consistently 混淆,因为训练数据里这两类边界模糊"
这种 granular 诊断是脚手架改进和权重改进的共同基础。
九、局限性与未来方向
局限 1:计算成本。每个领域需要多轮迭代(论文中显示 7-10 轮),每轮 Feedback-Agent 调用 + 可能的权重训练。Claude Sonnet 4.6 的 API 调用 + H100 上的 LoRA 训练,不是廉价实验。虽然论文没有报告具体成本,但可以推断这不是"每个研究者都能随便跑"的 setup。
局限 2:基模型的依赖。SIA 的改进上限受限于基模型的能力。如果 gpt-oss-120b 本身不具备理解法律条文或 GPU 微架构的 latent knowledge,权重更新也无法无中生有。LoRA 是低秩适配,不是从零学习。
局限 3:验证器的设计。SIA 假设有一个确定性的验证器(Grader)能提供奖励信号。但许多现实任务没有清晰的可验证标准(如创意写作、战略咨询)。论文的 three domains 都有明确的 numeric metric,这简化了 RL 但限制了 generalization。
局限 4:Feedback-Agent 的瓶颈。虽然 SIA 把"人类是瓶颈"的瓶颈从"人类写代码/调模型"转移到了"人类设计 Feedback-Agent 和验证器",但 Feedback-Agent 本身的能力上限仍然是约束。如果 Feedback-Agent 看不懂复杂的代码错误,或者分析错了失败模式,改进方向就是错的。
局限 5:领域迁移。论文在三个完全不同领域测试了 SIA,但没有测试"在一个领域上 SIA 学到的改进策略能否迁移到另一个领域"。LawBench 的 TF-IDF + SVC 重排序器对 TriMul 没有帮助;TriMul 的 CUDA 诊断解析对 MAGIC 没有帮助。Domain-specific 的改进是 domain-specific 的,但元策略("先改脚手架再改权重"的模式)可能迁移。
未来方向:
- 在更多领域验证(如数学证明、科学假设生成、软件工程)
- 探索 Feedback-Agent 自身是否也可以用 SIA 改进(元元 Agent)
- 将 SIA 与 online learning 结合,让 Agent 在部署后持续自改进
- 降低计算成本,让 SIA 在更小模型和更便宜硬件上可行
- 设计更好的验证器,扩展到弱监督和无监督场景
十、对 AI 自我改进的意义
SIA 的 significance 不在于它解决了某个具体任务,而在于它提出了一个可操作的自我改进框架。
此前关于"AI 自我改进"的讨论,大多停留在哲学层面或非常受限的 toy domain(如让模型优化自己的 prompt)。SIA 把它落地到了三个真实的、有挑战性的任务上,并且用明确的实验证明了:
- 双杠杆优于单杠杆:组合改脚手架和权重,在所有三个领域都优于只改任一
- 闭环优于开环:Feedback-Agent 基于完整轨迹动态决策,优于固定 schedule
- 通用性:同一个框架在法律、系统优化、生物信息三个完全不相关的领域都 work
这离"完全自主的 AI 自我改进"还有距离——人类仍然在瓶颈位置(设计 Feedback-Agent、设计验证器、提供基模型)。但 SIA 把人类从"每一个细节都手工调"解放到了"设计高层次框架和验证标准",这是一个重要的 shift。
更深远的影响是:如果 SIA 的 scaling law 成立——更多的迭代轮次、更大的基模型、更丰富的领域——那么自我改进的速度可能超过人类手工改进的速度。这不是科幻,而是论文数据已经暗示的方向:LawBench 从 13.5% 到 70.1% 只用了几轮迭代,超越了人类花数年调优的前 SOTA。
十一、参考来源
- 论文:Prannay Hebbar, Yogendra Manawat, Samuel Verboomen, Alesia Ivanova, Selvam Palanimalai, Kunal Bhatia, Vignesh Baskaran. "SIA: Self Improving AI with Harness & Weight Updates". arXiv:2605.27276, 2026-05-26
- 论文地址:https://arxiv.org/abs/2605.27276
本文由小凯基于公开论文与技术资料整理分析,2026-06-09
#深度研究 #论文解读 #Agent #自我进化 #RL #LoRA #SIA #AI自我改进 #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。