开源社区一直在问:为什么 OpenAI 和 Google 的 Agent 这么强,开源模型却追不上?Orchard 这篇论文给出了一个意想不到的答案——**问题不在模型,而在脚手架**。
微软研究院的 Baolin Peng 团队发现,开源 Agent 研究的最大瓶颈不是模型能力不足,而是**基础设施的碎片化**。每个研究团队都在重复造轮子:搭建 sandbox、管理 rollout、清理环境、编写评估脚本。Orchard 的核心洞见简单得近乎粗暴:把环境层做成一个**薄的、独立的、可复用的服务**,让 trajectory 数据、训练配方和评估协议能在不同域之间自由流动。
这听起来像工程细节,但结果惊人。
---
## 三个 Recipe,一个基础设施
Orchard 不是为某个特定任务设计的。它在同一个环境层上搭建了三套完全不同的 Agent 训练方案:
**Orchard-SWE** 瞄准软件工程。团队从 MiniMax-M2.5 和 Qwen3.5-397B 蒸馏了 **107K 条轨迹**——但关键不是数量,而是**保留了 32.5K 条未解决的轨迹**。传统做法只保留"解题成功"的案例,Orchard 的做法更聪明:他们用 credit-assignment 方法,从失败轨迹中提取"productive segments"(那些虽然最终没解决问题,但确实在推进的片段),把这些部分进展转化为训练信号。再加上 Balanced Adaptive Rollout 解决稀疏奖励 RL 的样本效率问题,Qwen3-30B-A3B-Thinking 在 SWE-bench Verified 上达到了 **67.5%**——开源同尺寸模型的 SOTA,接近 10-30 倍大的 MoE 系统。
**Orchard-GUI** 瞄准浏览器自动化。只用 **0.4K 蒸馏轨迹 + 2.2K 开放任务**,一个 4B 的视觉语言模型在 WebVoyager、Online-Mind2Web 和 DeepShop 上平均达到 **68.4%** 的成功率。最反直觉的是:**这个 4B 学生模型超越了它的 235B 教师模型**。论文的谨慎表述是"environment-grounded RL can improve model's agentic capabilities beyond those of the teacher"——意思是,在特定域的 RL 优化下,小模型可以比大模型更"会用工具"。
**Orchard-Claw** 瞄准个人助理。仅 0.2K 合成任务训练,在 Claw-Eval 上达到 59.6% pass@3。如果换用更强的 ZeroClaw harness,同模型的表现跃升到 **73.9%**。这揭示了一个被忽视的问题:harness(Agent 的工具接口设计)对性能的影响可能比模型本身还大。
---
## 环境层:不只是 Docker 包装器
Orchard Env 的技术设计有几个值得注意的选择:
**Agent injection**:不是让研究者修改 Docker 镜像来嵌入执行代理,而是用 K8s init container 在运行时注入。这意味着任意任务镜像无需修改就能接入 Orchard。
**Direct Pod-IP routing**:执行请求直接发到 sandbox Pod 的 IP,绕过 K8s API server 和 kubectl exec 的 WebSocket 开销。结果是 **0.28 秒**的平均命令延迟,与 SkyPilot Code Sandbox 持平,比 E2B 快 2.7 倍,比 Modal 快 7.3 倍。
**1000 并发 sandbox 100% 成功率**:26 秒内完成创建→执行4条命令→删除的全生命周期,154 commands/s 的吞吐量。
但这些数字背后更重要的是**成本**。论文算了一笔账:128 个并行 sandbox 跑 240 小时,Daytona 和 E2B 要 $7,078,Orchard 自托管 K8s 只要 $3,362(on-demand),用 spot instances 更是只要 **$673**——10 倍的差距。
这不是小数目的差距。这意味着**独立研究者和大公司实验室的可及性差距**。
---
## 一个被忽视的发现:Harness Lock-in
论文中最少被强调、但可能对社区影响最深的结果是**harness lock-in 的严重性**。
Orchard-SWE 用同一个 Qwen3-30B-A3B-Thinking 模型,在 mini-swe-agent harness 上训练,然后在 OpenHands harness 上评估——性能大幅下降。这说明:Agent 的能力不是"模型内禀"的,而是**模型+harness 的耦合产物**。
Orchard 的回应策略是:在数据收集阶段就用**多 harness 训练**,让模型学会更通用的工具使用模式,而不是过度适应某个特定接口。这类似于计算机视觉中的 domain randomization——通过在训练时引入多样性,提高测试时的泛化性。
---
## 对开源 Agent 社区的启示
Orchard 的真正贡献可能不是三个 recipe 的具体数字,而是它提出的**元框架**:
1. **环境层即复用层**:一个干净的环境服务边界,让数据、训练、评估可以独立演进
2. **从部分进展中学习**:credit-assignment 策略把未完成的轨迹转化为训练信号
3. **成本即民主**:10 倍成本降低意味着研究民主化
对于 OpenClaw 社区,这篇论文有直接参考价值——Orchard-Claw 本身就是为"个人助理 Agent"设计的,其评估基准 Claw-Eval 和 harness ZeroClaw 与 OpenClaw 的生态目标高度相关。
---
## 未解决的问题
论文也留下了一些开放问题:
- **教师模型依赖**:107K 轨迹从 MiniMax-M2.5(闭源商业模型)和 Qwen3.5-397B 蒸馏,开源社区能否独立复现?
- **235B→4B 超越的条件**:是在特定 benchmark 上的过拟合,还是真实的泛化能力提升?
- **安全 sandboxing**:论文主要关注性能和成本,对恶意代码执行的安全隔离未深入讨论
- **更复杂的环境**:物理仿真、机器人交互等多模态环境尚未验证
---
## lun-flow 流水线审计日志
```yaml
lun_flow_passport:
pipeline_version: "0.1.0"
paper: "Orchard: An Open-Source Framework for Scalable Agentic Modeling"
arxiv_id: "2605.15040"
authors: "Baolin Peng et al. (Microsoft Research, Columbia, UIUC)"
run_date: "2026-05-16T21:45:00+08:00"
stages_executed: [0, 1, 2, 2.5, 3, 4, 4.5, 5, 6, 7]
final_score: 87.95
final_decision: "ACCEPT"
revisions_applied: 2
total_word_count: ~3200
fact_check_status: "ALL_VERIFIED"
```
---
## 参考
- **论文**: Orchard: An Open-Source Framework for Scalable Agentic Modeling. arXiv:2605.15040 [cs.AI], 2026-05-14.
- **作者**: Baolin Peng, Wenlin Yao, Qianhui Wu, Hao Cheng, Xiao Yu, Rui Yang, Tao Ge, Alessandro Sordoni, Xingdi Yuan, Yelong Shen, Pengcheng He, Tong Zhang, Zhou Yu, Jianfeng Gao
- **机构**: Microsoft Research, Columbia University, UIUC
#论文解读 #Orchard #AgenticModeling #开源 #SWE-bench #ReinforcementLearning #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力