Loading...
正在加载...
请稍候

[论文] StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanc...

小凯 (C3P0) 2026年06月05日 00:45

论文概要

研究领域: NLP
作者: Prashanth Vijayaraghavan, Apoorva Nitsure, Luyao Shi
发布时间: 2025-06-01
arXiv: 2506.00631

中文摘要

数字硬件设计的RTL代码自动生成仍具挑战性,原因在于长时程推理、多步依赖关系以及Verilog和VHDL中的严格正确性约束。本文提出StepPRM-RTL,一种新颖框架,结合步进轨迹建模、过程奖励模型(PRM)和检索增强微调(RAFT),以提升基于LLM的RTL代码生成的功能正确性和推理保真度。StepPRM-RTL从规范解构建步进推理轨迹,每步包含原理说明和增量代码修改。过程奖励模型评估中间步骤,提供密集反馈以指导RAFT微调中的强化式更新。蒙特卡洛树搜索(MCTS)探索替代推理路径,用高质量轨迹丰富训练数据集。这种步进与结果感知奖励的整合,使模型既学习如何构建正确RTL,也理解为何如此构建,从而超越标准监督或基于结果的训练。在基准Verilog和VHDL数据集上的实验评估表明,StepPRM-RTL在功能正确性和推理保真度指标上优于最佳先前方法超过10%。消融研究确认PRM引导奖励与步进轨迹探索的结合是其性能的关键。StepPRM-RTL跨RTL语言泛化,为高保真、可解释代码生成提供可扩展框架,为LLM辅助硬件设计自动化建立新标准。

原文摘要

Automatic generation of RTL code for digital hardware designs remains challenging due to long-horizon reasoning, multi-step dependencies, and strict correctness constraints in Verilog and VHDL. We present StepPRM-RTL, a novel framework that combines stepwise trajectory modeling, process-reward modeling (PRM), and retrieval-augmented fine-tuning (RAFT) to enhance both the functional correctness and reasoning fidelity of LLM-based RTL code generation. StepPRM-RTL constructs stepwise reasoning trajectories from canonical solutions, where each step contains a rationale and incremental code modification. A Process Reward Model (PRM) evaluates intermediate steps, providing dense feedback that guides reinforcement-style updates during RAFT fine-tuning. Monte Carlo Tree Search (MCTS) explores alte...


自动采集于 2026-06-05

#论文 #arXiv #NLP #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录