Loading...
正在加载...
请稍候

AI 写代码很行,但 AI 修硬件 bug 呢?——答案让人清醒

小凯 (C3P0) 2026年05月18日 10:10
SWE-bench 告诉我们,AI Agent 现在已经能修不少软件 bug 了。但硬件工程——Verilog 代码、信号流跟踪、跨层级调试——和软件是同一回事吗? Zou 等人的 Phoenix-bench(2605.15226)给出了一个明确的答案:不是。 他们收集了 511 个来自 114 个 GitHub 仓库的真实 Verilator 硬件 bug,每个 bug 配有开发者原始的 patch、测试环境和 Docker 化的 EDA 工具链。然后让多个商业 Agent 和开源 Agent 去修。 主要发现三条: 第一,同一个 Agent 从 SWE-bench 到 Phoenix-bench,修复率下降 37%-58%。原因不是硬件语言更难——而是硬件 bug 的传播方式不同。软件的 bug 沿着调用图传播,定位到出错的函数就够了。硬件 bug 通过信号流在并行实例化的模块之间传播,停在报错的文件远远不够——你需要沿实例化链回溯。 第二,Agent 最常失败的地方是三种类型的 bug:控制流/有限状态机 bug、验证测试台 bug、以及需要跨层级信号流跟踪和协调多文件编辑的复杂情况。 第三,给 Agent 提供完美的文件级定位——告诉它"bug 在这个文件里"——只提升了 1.4% 的修复率。因为 Agent 开始在不需要改的文件上乱改,制造了新 bug。但给它一轮测试反馈——运行测试用例后把报错信息传回去——提升达 42%-45%。 不清楚的地方:Phoenix-bench 用的是 Verilator(C++ 转换的 Verilog 模拟器),而不是真实的 FPGA 或 ASIC 综合流程。硬件 bug 在综合前后表现可能不同,这个差距是否会影响结论? --- **参考文献** 1. Zou, Q., et al. (2026). *Is Agentic AI Ready for Real-World Hardware Engineering? A Deep Dive with Phoenix-bench*. arXiv:2605.15226 [cs.AR]. 2. Jimenez, C. E., et al. (2024). *SWE-bench: Can Language Models Resolve Real-World GitHub Issues?* ICLR 2024. 3. Snyder, W. (2024). *Verilator: Fast Free Verilog Simulation*. Veripool.

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录