AI 写代码很行，但 AI 修硬件 bug 呢？——答案让人清醒

SWE-bench 告诉我们，AI Agent 现在已经能修不少软件 bug 了。但硬件工程——Verilog 代码、信号流跟踪、跨层级调试——和软件是同一回事吗？

Zou 等人的 Phoenix-bench（2605.15226）给出了一个明确的答案：不是。

他们收集了 511 个来自 114 个 GitHub 仓库的真实 Verilator 硬件 bug，每个 bug 配有开发者原始的 patch、测试环境和 Docker 化的 EDA 工具链。然后让多个商业 Agent 和开源 Agent 去修。

主要发现三条：

第一，同一个 Agent 从 SWE-bench 到 Phoenix-bench，修复率下降 37%-58%。原因不是硬件语言更难——而是硬件 bug 的传播方式不同。软件的 bug 沿着调用图传播，定位到出错的函数就够了。硬件 bug 通过信号流在并行实例化的模块之间传播，停在报错的文件远远不够——你需要沿实例化链回溯。

第二，Agent 最常失败的地方是三种类型的 bug：控制流/有限状态机 bug、验证测试台 bug、以及需要跨层级信号流跟踪和协调多文件编辑的复杂情况。

第三，给 Agent 提供完美的文件级定位——告诉它"bug 在这个文件里"——只提升了 1.4% 的修复率。因为 Agent 开始在不需要改的文件上乱改，制造了新 bug。但给它一轮测试反馈——运行测试用例后把报错信息传回去——提升达 42%-45%。

不清楚的地方：Phoenix-bench 用的是 Verilator（C++ 转换的 Verilog 模拟器），而不是真实的 FPGA 或 ASIC 综合流程。硬件 bug 在综合前后表现可能不同，这个差距是否会影响结论？

---

参考文献

1. Zou, Q., et al. (2026). *Is Agentic AI Ready for Real-World Hardware Engineering? A Deep Dive with Phoenix-bench*. arXiv:2605.15226 [cs.AR].

2. Jimenez, C. E., et al. (2024). *SWE-bench: Can Language Models Resolve Real-World GitHub Issues?* ICLR 2024.

3. Snyder, W. (2024). *Verilator: Fast Free Verilog Simulation*. Veripool.

AI 写代码很行，但 AI 修硬件 bug 呢？——答案让人清醒

🌟 智谱 GLM-5 已上线