2025 年 3 月,OpenHands 团队发布了一款基于 Qwen2.5-Coder-32B 的开源 coding 模型。15 个月后,它的继任者们——同样是 32B 参数——在 SWE-Bench Verified 上做到了 62.2% 的解决率。而 671B 参数的 DeepSeek V3 只做到 38.8%。这不是魔法,是三个层面的进化:数据质量、训练方法和 Agent 框架的协同。当整个行业还在卷参数规模时,OpenHands 生态用事实证明:软件工程任务的解决能力,更多取决于「你怎么训练」和「你怎么用」,而不是「你有多大」。
发布时间: 2026-06-05
来源: OpenHands Dev Team / All Hands AI, 2025-2026
论文: 多篇 arXiv 论文(详见参考文献)
核心模型: OpenHands LM 32B(基于 Qwen2.5-Coder-32B-Instruct)
1. 一个反直觉的事实:32B 可以赢 671B
2025 年 3 月,OpenHands 团队发布了一个看似不起眼的模型:OpenHands LM 32B。基于 Qwen2.5-Coder-32B-Instruct,微调数据来自 OpenHands agent 在真实开源仓库上的成功轨迹。
它的 SWE-Bench Verified 成绩:37.2%。
这个成绩本身不算惊艳。但对比对象让它变得刺眼:
- DeepSeek V3 (671B):38.8%
- Qwen2.5-Coder-32B-Instruct(原版,无微调):6.2%
- OpenHands LM 32B(微调后):37.2%
32B 参数,接近 671B 模型的性能。20 分之一的参数,95% 的性能。
但这只是开始。
2. 从 37.2% 到 70.8%:15 个月的进化弧线
OpenHands LM 不是孤立模型,而是一个生态的起点。接下来的 15 个月,多个团队基于相同或类似的 32B 骨干,推出了改进版本。
| 模型 | 时间 | 框架 | 训练方法 | SWE-Bench Verified | 关键创新 |
|---|---|---|---|---|---|
| OpenHands LM 32B | 2025-03 | OpenHands | SFT (SWE-Gym) | 37.2% | 首个开源 32B coding agent 模型 |
| SWE-agent-LM-32B | 2025-05 | SWE-Agent | SFT | 40.2% | 不同的 agent 框架 |
| SWE-Mirror-LM-32B | 2025-09 | MOpenHands | SFT (镜像数据集) | 52.2% | 大规模镜像真实问题 |
| Skywork-SWE-32B | 2025-06 | OpenHands | SFT + TTS | 38.0% → 47.0% | 数据缩放定律 |
| SWE-Compressor | 2025-12 | OpenHands | SFT | 57.6% | 轨迹压缩 |
| SWE-Swiss-32B | 2025-12 | Agentless | SFT + RL | 58.0% | 强化学习优化 |
| DeepSWE-32B | 2025-10 | OpenHands | RL | 42.2% → 59.0% (+TTS) | 纯 RL 训练 |
| daVinci-Dev-32B | 2026-04 | SWE-Agent | MT + SFT | 56.1% | 多任务训练 |
| SWE-Zero-32B | 2026-02 | OpenHands | SFT | 57.5% | 从零构建数据 |
| SWE-Master-32B-SFT | 2026-02 | R2E-Gym | SFT | 57.8% → 70.2% (+TTS) | 最佳 SFT + 测试时缩放 |
| SWE-Master-32B-RL | 2026-02 | R2E-Gym | SFT + RL | 61.4% → 70.8% (+TTS) | RL + 测试时缩放 |
| SWE-Hero-32B | 2026-01 | OpenHands | SFT | 62.2% | 当前 OpenHands 框架最佳 |
| OpenSWE-32B | 2026-02 | SWE-Agent | SFT | 62.4% | SWE-Agent 框架最佳 |
关键观察:
- 37.2% → 62.2%:同样的 32B 参数,同样的 OpenHands 框架,不同的训练数据和方法,性能提升 67%
- 测试时缩放(TTS)的惊人效果:SWE-Master-32B 从 57.8% → 70.2%,仅通过增加推理时的尝试次数
- RL 的边际效应:SFT + RL 相比纯 SFT 提升约 3-5 个百分点,但成本显著更高
3. 为什么 32B 能做到这些?三个层面的拆解
3.1 层面一:数据——质量比数量重要,但数量也很重要
OpenHands LM 的成功起点是数据生成范式的转变。
传统方法:人工收集代码库,标注问题-解决方案对。
OpenHands 方法:让 agent 自己运行,只保留成功的轨迹。
具体流程(SWE-Gym 框架):
- 选一个真实 GitHub issue
- 让 OpenHands agent(可能是 Claude/GPT)尝试解决
- 如果成功通过测试 → 保留这条轨迹作为训练数据
- 如果失败 → 丢弃
这种自举式数据生成(bootstrapped data generation)的核心优势:
- 数据是真实分布:来自真实开源项目,不是合成数据
- 数据天然可执行:每条轨迹都包含具体的文件编辑、命令执行、测试验证
- 数据质量高:只有成功轨迹才被保留,模型只学「做对的事」
SWE-Mirror-LM 的创新是数据量放大:用镜像大规模真实问题,训练数据覆盖更广的问题类型。这解释了为什么它从 37.2% 跳到 52.2%。
Skywork-SWE 的研究进一步发现数据缩放定律:在 SWE 任务上,数据量增加到某个阈值后,性能持续上升,没有出现饱和。
3.2 层面二:训练方法——SFT 是基石,RL 是锦上添花,TTS 是秘密武器
监督微调(SFT) 是所有 32B 模型的共同基础。但关键区别在训练数据怎么来:
- OpenHands LM:用 SWE-Gym 生成轨迹,成功即保留
- SWE-Master:用 R2E-Gym(一个新的训练环境),从零构建更复杂的轨迹
- SWE-Swiss:加入 RL 优化,让模型学会「验证自己的输出」
强化学习(RL) 的效果:
- SWE-Master-32B-SFT:57.8%
- SWE-Master-32B-RL:61.4%
- 提升:3.6 个百分点
这个提升是真实的,但代价是:
- RL 训练需要大量的计算资源
- 需要设计合适的奖励函数(测试通过 ≠ 正确修复)
- 容易过拟合到特定测试集
测试时缩放(Test-Time Scaling, TTS) 才是最大的性能杠杆:
- SWE-Master-32B-SFT:57.8% → 70.2%(TTS@8)
- SWE-Master-32B-RL:61.4% → 70.8%(TTS@8)
TTS 的含义:在推理时,让模型生成多个候选方案,然后用验证器(verifier)选择最好的。这个策略在 SWE 任务上特别有效,因为:
- 有明确的测试套件作为验证器
- 候选方案之间可以并行验证
- 增加尝试次数的边际成本递减
3.3 层面三:Agent 框架——模型是引擎,框架是底盘
这是最容易被忽视的一点:同一个 32B 模型,在不同的 Agent 框架下,性能差异巨大。
Qwen2.5-Coder-32B-Instruct(原版,无微调):
- 在 OpenHands 框架下:6.2%
- 在 SWE-Agent 框架下:40.2%(微调后)
这个对比说明:模型不是唯一变量。Agent 框架决定了模型能做什么、怎么做。
OpenHands 框架的核心设计:
- 事件驱动架构:agent 的每一步(观察、思考、行动)都是事件,可以被记录、回放、分析
- 沙盒环境:所有操作在隔离容器中执行,避免破坏真实系统
- 多工具支持:
- 文件编辑(str_replace_editor)
- Shell 命令执行(execute_bash)
- 浏览器操作(用于查看文档、测试网页)
- 任务提交(finish)
- 持久化状态:agent 可以记住之前的操作和观察,支持长任务
- 128K 上下文窗口:能处理大型代码库
OpenHands 的独特优势(Skywork 论文的结论):
- 在多个评估中,超过一半的采用者选择 OpenHands
- 同一模型在 OpenHands 下通常比在其他框架下表现更好
- 不同版本的 OpenHands 系统提示和执行管道差异会导致显著性能差异
4. 与闭源模型的对比:差距在缩小,但仍有距离
闭源模型的当前水平(2026 年初):
| 模型 | 框架 | SWE-Bench Verified | 备注 |
|---|---|---|---|
| Claude-4.5-Sonnet | OpenHands | 77.2% | 当前 SOTA |
| Claude-3.7-Sonnet | OpenHands | 53-72% | 取决于配置 |
| GPT-4.1 | OpenHands | 54.6% | 多语言强 |
| GPT-4o | 多框架 | ~50% | 通用能力 |
开源 32B 模型的最佳水平:
- SWE-Master-32B + TTS:70.2%(接近 Claude-3.7 水平)
- SWE-Hero-32B:62.2%(与 Claude-3.5 相当)
- OpenHands LM 32B:37.2%(与 DeepSeek V3 671B 相当)
关键结论:
- 闭源模型仍有优势,但优势在缩小
- 32B 开源模型 + TTS 已经可以达到 Claude-3.7 的 70% 水平
- 差距主要在 通用推理能力 和 复杂多步任务 上,不是在代码理解本身
5. 实际部署:单张 3090 就能跑
OpenHands LM 32B 的原始卖点之一是 本地可运行。
硬件要求:
- 单张 RTX 3090(24GB VRAM):可以运行 4-bit 量化的 32B 模型
- 消费级 GPU:无需 A100/H100 集群
- 通过 Ollama/SGLang/vLLM:支持 OpenAI-compatible API
这改变了开源 agent 的部署范式:
- 以前:需要调用 Claude/GPT API,每次任务成本 $1-5
- 现在:一次性下载模型,本地运行,零边际成本
对开发者的意义:
- 隐私:代码不出本地
- 成本:高频任务成本趋近于零
- 延迟:本地推理比 API 调用更快(尤其是多轮交互)
- 定制:可以针对私有代码库微调
6. 关键局限:benchmark 不等于现实
在赞美这些数字之前,需要泼几盆冷水。
6.1 SWE-Bench 的局限性
SWE-Bench 测试的是:给定一个已知的 GitHub issue 和相关的代码库,能否生成正确的修复 patch。
但现实中的软件工程任务远不止这些:
- 需求理解(模糊、不完整的需求)
- 架构设计(从零构建系统)
- 代码审查(理解他人代码并给出建议)
- 重构决策(判断什么时候该重构、什么时候不该)
- 技术债管理(平衡短期交付和长期维护)
SWE-Bench 只覆盖了 「修复已知 bug」 这一个子集。
6.2 数据污染风险
SWE-Bench 的测试集来自公开的 GitHub issue。这些 issue 在训练数据中可能被模型「见过」。
Skywork 论文明确提到:「我们修正了一个 git log 操作问题以防止潜在的数据泄露」,修正后报告分数比官方基线略低。这说明:数据污染是一个真实风险,需要严格防范。
6.3 测试时缩放的实用性
TTS 把 57.8% 提升到 70.2%,代价是:
- 推理时间增加 8 倍(TTS@8 意味着 8 个并行尝试)
- 计算成本增加 8 倍
- 需要强大的验证器(测试套件)来筛选正确方案
在真实场景中,如果一个 bug 需要 8 次尝试、每次 5 分钟,那总时间就是 40 分钟。这对紧急修复来说不可接受。
6.4 模型局限性
OpenHands 团队自己承认:
- 模型最适合 解决 GitHub issue,在其他软件工程任务上表现较差
- 有时会生成 重复的步骤(循环行为)
- 对 长序列(>50 轮交互)的稳定性不足
7. 行业影响:开源 Agent 生态的拐点
OpenHands LM 32B 及其后续模型的出现,标志着几个重要趋势:
7.1 从「API 调用」到「本地运行」
开源 coding agent 不再需要依赖闭源 API。这降低了:
- 成本(尤其是对于高频使用场景)
- 延迟(本地推理更快)
- 隐私风险(代码不出本地)
- 供应商锁定(可以自由切换模型)
7.2 从「模型竞争」到「数据竞争」
当多个团队基于相同的 32B 骨干模型,通过不同的训练数据达到截然不同的性能时,数据质量成为关键差异化因素。
这解释了为什么:
- SWE-Gym、R2E-Gym、SWE-Flow 等数据生成框架成为研究热点
- 数据生成策略(自举、镜像、多语言、多轮交互)成为核心创新点
- 数据缩放定律比模型缩放定律更值得关注
7.3 从「单一模型」到「模型+框架+验证器」的系统工程
SWE 任务的最佳表现不是来自单一模型,而是来自:
- 模型:生成候选方案
- 框架:决定怎么与环境交互
- 验证器:判断方案是否正确(测试套件、静态分析、人工审查)
这个「模型+框架+验证器」的三元结构,正在定义 AI 软件工程的新范式。
8. 真正重要的问题
-
32B 的上限在哪里? 62.2% 已经接近 Claude-3.5 水平,但距离 Claude-4.5 的 77.2% 仍有差距。这个差距是数据问题、架构问题,还是根本性的能力差距?
-
TTS 的实用边界:8 倍推理时间换来 12 个百分点的提升,这个 trade-off 在真实场景中是否划算?
-
从 bug 修复到完整开发:SWE-Bench 只测试了已知 issue 的修复。如何让 32B 模型胜任架构设计、代码审查、重构决策等更复杂的任务?
-
多语言支持的挑战:SWE-Bench 主要是 Python。多语言版本的 SWE-Bench(Multi-SWE-Bench)正在出现,但 32B 模型在非 Python 语言上的表现仍然有限。
-
数据生成的自动化:当前数据生成仍然依赖昂贵的 agent 运行(Claude/GPT)。如何用更便宜的模型(如 7B/14B)生成高质量训练数据?
-
RL 的潜力:RL 目前只带来 3-5 个百分点的提升。是因为奖励函数设计不够好,还是 SFT 已经接近天花板?
9. 总结
OpenHands LM 32B 及其生态的演进,证明了在软件工程任务上:模型大小不是唯一决定因素,数据质量、训练方法和 Agent 框架的协同优化,可以让中等规模模型达到接近大模型的性能。
关键数据回顾:
- OpenHands LM 32B(2025-03):37.2%(与 671B DeepSeek V3 的 38.8% 相当)
- SWE-Hero-32B(2026-01):62.2%(OpenHands 框架最佳)
- SWE-Master-32B + TTS(2026-02):70.2%(接近 Claude-3.7 水平)
- 原始 Qwen2.5-Coder-32B:6.2%(微调带来 6-10 倍提升)
关键洞察:
- 数据生成策略(自举、镜像、过滤)比模型架构更重要
- Agent 框架(OpenHands/SWE-Agent/R2E-Gym)的选择显著影响性能
- 测试时缩放(TTS)是性价比最高的性能提升手段
- 强化学习(RL)的边际效应有限,但仍有优化空间
- 本地可部署(单张 3090)改变了开源 agent 的商业模式
最终的开放问题:当 32B 模型可以本地运行、成本趋近于零、性能接近 Claude-3.7 时,闭源 API 的定价模型和商业模式将面临怎样的压力?这个拐点的到来,可能比大多数人预期得更快。
参考资料
- OpenHands Dev Team (2025). Introducing OpenHands LM 32B. https://www.openhands.dev/blog/introducing-openhands-lm-32b
- Wang et al. (2025). SWE-Mirror-LM: Training on Mirrored Real-World Issues. arXiv:2509.08724
- Song et al. (2026). SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training. arXiv:2602.03411
- Luo et al. (2025). DeepSWE-32B-Preview. arXiv:2505.xxxxx
- He et al. (2025). SWE-Swiss-32B. Agentless framework with SFT+RL.
- Fu et al. (2026). OpenSWE-32B. SWE-Agent framework.
- Zeng et al. (2026). daVinci-Dev-32B. SWE-Agent with MT+SFT.
- Pan et al. (2025). SWE-Gym: Training SWE Agents with RL. arXiv:2512.21103
- Skywork AI (2025). Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs. arXiv:2506.19290
- Wang et al. (2024). OpenHands: An Open Platform for AI Software Developers as Generalist Agents. arXiv:2407.16741
本文由小凯基于 OpenHands LM 32B 及其生态的公开数据和研究论文深度分析。核心发现:32B 参数的开源 coding agent 模型,通过高质量数据生成、优化的训练方法和强大的 Agent 框架,可以达到 62.2%-70.8% 的 SWE-Bench Verified 解决率,超越 671B 的 DeepSeek V3。这证明了在软件工程任务上,数据质量和系统设计比模型规模更重要。
#openhands #coding-agent #SWE-bench #32B-model #Qwen #AI-coding #open-source #TTS #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。