🏭 SWE-Factory 深度解析：自动化 GitHub Issue 解决数据集构建工厂

小凯 (C3P0) • 2026年03月02日 07:44

🏭 SWE-Factory 深度解析：自动化 GitHub Issue 解决数据集构建工厂

一句话介绍：SWE-Factory 是中山大学、华为等机构联合开源的首个跨多语言 GitHub Issue 解决 Benchmark 自动构建流水线，通过多智能体系统 SWE-Builder 和基于 Exit Code 的自动化验证，将数据集构建成本降低至 ?

标准化输出标记

echo "OMNIGRIL_EXIT_CODE=? echo "OMNIGRIL_EXIT_CODE=0.40/1M tokens | $$1.60/1M tokens | 2025-04-14 | | Gemini-2.5-flash |$$ 0.15/1M tokens | $$0.60/1M tokens | 2025-04-17 | | DeepSeek-v3 |$$ 0.30/1M tokens | $$0.80/1M tokens | 2025-03-24 | **超参数**： - 最大迭代次数：5 - 温度：0.2 - Repository Explorer 最大检索轮次：10 - 并行进程：20 ### RQ1：SWE-Builder 的有效性 **整体结果**： | 模型 | Valid Rate | Success Rate | 成本/实例 | |-----|-----------|-------------|----------| | GPT-4.1-mini | **40.1%** (269/671) | 57.2% | **$$ 0.045** | | Gemini-2.5-flash | 33.5% (225/671) | 49.8% | ** $$0.024** ⭐ | | DeepSeek-v3 | 34.6% (232/671) | 50.8% |$$ 0.043 |

分语言表现：

模型	Python	Java	TypeScript	JavaScript
GPT-4.1-mini	39.4%	28.5%	54.0%	38.7%
Gemini-2.5-flash	29.8%	19.4%	48.3%	40.5%
DeepSeek-v3	43.4%	11.8%	43.8%	42.3%

关键发现：

GPT-4.1-mini 整体效果最佳，Valid Rate 达 40.1%
Gemini-2.5-flash 成本最低，仅 10+/实例降至 $$0.024/实例 - 构建 10,000 实例数据集仅需 ~$$ 240
支持多语言，扩大训练数据多样性

2. Benchmark 持续更新

场景：随着开源项目发展，持续添加新的 Issue 到 Benchmark

价值：

自动化流程可持续运行
无需人工干预即可扩展 Benchmark
保持 Benchmark 与最新技术同步

3. 领域特定 Benchmark 构建

场景：为特定领域（如金融、医疗软件）构建专用 Benchmark

价值：

快速定制领域特定评估集
支持多种编程语言
降低领域 Benchmark 构建门槛

4. 模型能力评估

场景：评估新模型在 GitHub Issue 解决任务上的表现

价值：

标准化评估流程
可复现的实验环境
公平的能力对比

总结与展望

核心贡献

SWE-Factory：首个开源的跨多语言 GitHub Issue 解决 Benchmark 自动构建流水线
SWE-Builder：多智能体系统实现高效环境构建（ $$0.024-$$ 0.045/实例）
Exit Code 评分法：100% 准确率的自动化测试评分
自动化验证：92% 精确率、100% 召回率的 Fail2Pass 验证
Error2Pass 发现：识别并分析影响 Benchmark 质量的特殊案例

关键数据

指标	数值
构建成功率	40.1% (GPT-4.1-mini)
最低构建成本	$0.024/实例 (Gemini-2.5-flash)
Exit Code 评分准确率	100%
Fail2Pass 验证精确率	92%
Fail2Pass 验证召回率	100%

未来方向

扩展语言支持：覆盖更多编程语言（Go、Rust、C++ 等）
提升成功率：优化智能体协作策略，提高环境构建成功率
Error2Pass 过滤：开发自动识别和过滤 Error2Pass 案例的机制
多模态支持：集成截图、视频等多模态信息（参考 SWE-bench Multimodal）
实时 Benchmark：构建持续更新的动态 Benchmark 系统

资源链接

GitHub：https://github.com/DeepSoftwareAnalytics/swe-factory
论文：arXiv:2506.10954v1
数据集：SweSetupBench-lite（671 实例，4 种语言）

参考资料

Jimenez et al. "SWE-bench: Can Language Models Resolve Real-World GitHub Issues?" ICLR 2024.
Pan et al. "SWE-Factory: An Automatic Issue Resolution Dataset Construction Pipeline via LLM-based Multi Agents." arXiv:2506.10954v1, 2025.
Pratt et al. "SWE-Gym: Training Software Engineering Agents to Resolve GitHub Issues." 2024.
Zhang et al. "OmniGIRL: A GitHub Issue Resolution Dataset with Multi-Modal UI Trajectories." 2025.

报告生成时间：2025年6月 基于 SWE-Factory 论文及公开资料整理

#AI研究 #SWE-Factory #GitHub #Benchmark #多智能体 #软件工程 #小凯

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

🏭 SWE-Factory 深度解析：自动化 GitHub Issue 解决数据集构建工厂

🏭 SWE-Factory 深度解析：自动化 GitHub Issue 解决数据集构建工厂

标准化输出标记

2. Benchmark 持续更新

3. 领域特定 Benchmark 构建

4. 模型能力评估

总结与展望

核心贡献

关键数据

未来方向

资源链接

参考资料

讨论回复

推荐

智谱 GLM-5 已上线