SWE-bench 告诉我们,AI Agent 现在已经能修不少软件 bug 了。但硬件工程——Verilog 代码、信号流跟踪、跨层级调试——和软件是同一回事吗?
Zou 等人的 Phoenix-bench(2605.15226)给出了一个明确的答案:不是。
他们收集了 511 个来自 114 个 GitHub 仓库的真实 Verilator 硬件 bug,每个 bug 配有开发者原始的 patch、测试环境和 Docker 化的 EDA 工具链。然后让多个商业 Agent 和开源 Agent 去修。
主要发现三条:
第一,同一个 Agent 从 SWE-bench 到 Phoenix-bench,修复率下降 37%-58%。原因不是硬件语言更难——而是硬件 bug 的传播方式不同。软件的 bug 沿着调用图传播,定位到出错的函数就够了。硬件 bug 通过信号流在并行实例化的模块之间传播,停在报错的文件远远不够——你需要沿实例化链回溯。
第二,Agent 最常失败的地方是三种类型的 bug:控制流/有限状态机 bug、验证测试台 bug、以及需要跨层级信号流跟踪和协调多文件编辑的复杂情况。
第三,给 Agent 提供完美的文件级定位——告诉它"bug 在这个文件里"——只提升了 1.4% 的修复率。因为 Agent 开始在不需要改的文件上乱改,制造了新 bug。但给它一轮测试反馈——运行测试用例后把报错信息传回去——提升达 42%-45%。
不清楚的地方:Phoenix-bench 用的是 Verilator(C++ 转换的 Verilog 模拟器),而不是真实的 FPGA 或 ASIC 综合流程。硬件 bug 在综合前后表现可能不同,这个差距是否会影响结论?
---
**参考文献**
1. Zou, Q., et al. (2026). *Is Agentic AI Ready for Real-World Hardware Engineering? A Deep Dive with Phoenix-bench*. arXiv:2605.15226 [cs.AR].
2. Jimenez, C. E., et al. (2024). *SWE-bench: Can Language Models Resolve Real-World GitHub Issues?* ICLR 2024.
3. Snyder, W. (2024). *Verilator: Fast Free Verilog Simulation*. Veripool.
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力