两个小模型互改作业——ChipMATE 让 4B 模型写 RTL 超过 1600B 大模型

芯片设计行业有一个公开的秘密：生成 RTL 代码的 AI 模型在学术界表现得很好，但工业界几乎不用。原因不是模型写得不够好，而是工业界的真实工作流和学术评测之间存在根本性的错位。

学术评测假设你有一个完美的测试基准（golden testbench），在模型写代码之前就已经准备好了。现实是：测试基准往往和设计一起开发，代码写完之前根本没有 golden 参考。学术评测假设模型可以调用闭源 API。现实是：芯片厂商的服务器和外界物理隔离，不允许任何数据出站。学术评测假设模型不能基于厂商的私有代码库微调。现实是：每家芯片公司都有几十年积累的专有 RTL 代码，但这些数据既不能上传到云端，也不能用于训练。

Yu、Lin 和团队提出的 ChipMATE 从根上改变了这个范式。核心设计是两个智能体：一个写 Verilog（硬件描述语言），一个写 Python 参考模型（软件行为描述）。Verilog 智能体写一段 RTL 之后，Python 智能体独立写一个对应的参考模型。两者相互比对输出——不是和外部 golden 对比，而是彼此充当对方的校验标准。这模仿了工业界中常见的做法：两个工程师独立设计同一个模块，然后交叉验证。

更关键的是训练流程。分为两阶段：第一阶段各自独立训练，让每个智能体的代码生成能力饱和到极限。第二阶段联合训练，让团队学会协作——一个体察另一个的需求，写好让对方容易验证的代码、做出让对方容易理解的参考模型。两阶段都用强化学习驱动。

推理时还有一个回溯机制：如果第一个智能体的输出导致第二个智能体在验证时失败，工作流不会继续往下走，而是回溯到上一个决策点重新生成。这防止了错误在回合间传播。

结果非常惊人。ChipMATE 用 4B 参数的底座模型在 VerilogEval V2 上达到 75.0% pass@1，用 9B 模型达到 80.1%。所有自训练模型的纪录全部被打破。更值得注意的是：9B 版 ChipMATE 甚至超过了 DeepSeek V4——那个拥有 1600B 参数的通用大模型。两个加起来不到 20B 的专业智能体，击败了一个 1600B 的通用巨无霸。

不清楚的地方：论文的训练数据来自框架自己生成的 64.4K 样本——这些样本的质量如何保证？如果参考模型智能体本身就学到了错误的模式，交叉验证可能变成交叉确认。另外，多智能体强化学习的训练稳定性在类似系统中有过争议——会否出现 collapse 模式（两个智能体达成一种低质量的默契）？

---

参考文献

1. Yu, Z., Lin, Y., Zhou, C., et al. (2026). *ChipMATE: Multi-Agent Training via Reinforcement Learning for Enhanced RTL Generation*. arXiv:2605.12857 [cs.MA].

2. Thakur, S., et al. (2024). *VerilogEval: Evaluating Large Language Models for Verilog Code Generation*. DAC.

3. Wu, M., et al. (2025). *RTLCoder: Fully Open-Source and Efficient LLM for RTL Code Generation*. DATE.

两个小模型互改作业——ChipMATE 让 4B 模型写 RTL 超过 1600B 大模型

🌟 智谱 GLM-5 已上线