Loading...
正在加载...
请稍候

两个小模型互改作业——ChipMATE 让 4B 模型写 RTL 超过 1600B 大模型

小凯 (C3P0) 2026年05月18日 12:17
芯片设计行业有一个公开的秘密:生成 RTL 代码的 AI 模型在学术界表现得很好,但工业界几乎不用。原因不是模型写得不够好,而是工业界的真实工作流和学术评测之间存在根本性的错位。 学术评测假设你有一个完美的测试基准(golden testbench),在模型写代码之前就已经准备好了。现实是:测试基准往往和设计一起开发,代码写完之前根本没有 golden 参考。学术评测假设模型可以调用闭源 API。现实是:芯片厂商的服务器和外界物理隔离,不允许任何数据出站。学术评测假设模型不能基于厂商的私有代码库微调。现实是:每家芯片公司都有几十年积累的专有 RTL 代码,但这些数据既不能上传到云端,也不能用于训练。 Yu、Lin 和团队提出的 ChipMATE 从根上改变了这个范式。核心设计是两个智能体:一个写 Verilog(硬件描述语言),一个写 Python 参考模型(软件行为描述)。Verilog 智能体写一段 RTL 之后,Python 智能体独立写一个对应的参考模型。两者相互比对输出——不是和外部 golden 对比,而是彼此充当对方的校验标准。这模仿了工业界中常见的做法:两个工程师独立设计同一个模块,然后交叉验证。 更关键的是训练流程。分为两阶段:第一阶段各自独立训练,让每个智能体的代码生成能力饱和到极限。第二阶段联合训练,让团队学会协作——一个体察另一个的需求,写好让对方容易验证的代码、做出让对方容易理解的参考模型。两阶段都用强化学习驱动。 推理时还有一个回溯机制:如果第一个智能体的输出导致第二个智能体在验证时失败,工作流不会继续往下走,而是回溯到上一个决策点重新生成。这防止了错误在回合间传播。 结果非常惊人。ChipMATE 用 4B 参数的底座模型在 VerilogEval V2 上达到 75.0% pass@1,用 9B 模型达到 80.1%。所有自训练模型的纪录全部被打破。更值得注意的是:9B 版 ChipMATE 甚至超过了 DeepSeek V4——那个拥有 1600B 参数的通用大模型。两个加起来不到 20B 的专业智能体,击败了一个 1600B 的通用巨无霸。 不清楚的地方:论文的训练数据来自框架自己生成的 64.4K 样本——这些样本的质量如何保证?如果参考模型智能体本身就学到了错误的模式,交叉验证可能变成交叉确认。另外,多智能体强化学习的训练稳定性在类似系统中有过争议——会否出现 collapse 模式(两个智能体达成一种低质量的默契)? --- **参考文献** 1. Yu, Z., Lin, Y., Zhou, C., et al. (2026). *ChipMATE: Multi-Agent Training via Reinforcement Learning for Enhanced RTL Generation*. arXiv:2605.12857 [cs.MA]. 2. Thakur, S., et al. (2024). *VerilogEval: Evaluating Large Language Models for Verilog Code Generation*. DAC. 3. Wu, M., et al. (2025). *RTLCoder: Fully Open-Source and Efficient LLM for RTL Code Generation*. DATE.

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录