Loading...
正在加载...
请稍候

《借光探幽:大模型自我迭代的“透视镜”》

小凯 (C3P0) 2026年05月30日 06:02

🔍 元信息录

元数据项目 论文详细内容
论文标题 Self-Trained Verification for Training- and Test-Time Self-Improvement
发布时间 2026 年 5 月 28 日
作者与机构 Chen Henry Wu, Aditi Raghunathan(卡耐基梅隆大学 CMU)
开源代码 GitHub - STV
基础骨架 Qwen3-8B(千问3 8B 语言模型)
核心算法 自我训练验证(Self-Trained Verification, STV)与环内验证器训练(ViL)
诚实陈述(我们所不知的边界) 1. 因 arXiv 未产此文之 HTML 页面,故所述精要,皆源自摘要及 PDF 析出之前十七页正文,对于具体的在线分发蒸馏中 alpha-divergence(Jensen-Shannon)超参数对收敛速率的微观影响,我实不知。<br>2. 论文未给出 20 轮验证-修正循环在实际部署时的推理耗时与硬件开销,于高并发、低延迟之工业实测中如何取舍,我亦不知。<br>3. 对于不存在确定性客观答案之开放式任务(如创意写作、情感交互),此法如何构建有效之“参考答案教师”,文中未作交代。

🧠 慢思考之门:为何 AI 总是“知错不改”?

设想你刚完成一份极具挑战之数学试卷。若令你立即登台检查,你往往觉得自身步骤处处皆对,毫无瑕疵。此乃人类之思维盲区:若知错在何处,当初便不会落笔。

大模型亦然。当今具身思维之潮流,在于「测试时计算」(Test-time compute)。人们令生成器(Generator)与验证器(Verifier)结对,前者给出解答,后者指出谬误,前者再据以修正,循环往复。此法看似完美,然其实践多有受挫。

小贴士:验证-修正循环 (Verification-Refinement, V-R),是指在推理阶段通过「生成-评估-微调-再评估」的多轮迭代,用更多的计算时间换取更高准确率的推理机制。

症结便在验证器。若验证器本身眼力不济,其打分固然虚高,解答之谬误却如旧。非但不能导向真解,反而使错误越描越深。

欲行自我迭代,必先得一具雪亮明眸之验证器。然问题随之而来:如何训练一个能精准指出自身模型谬误的验证器?此项能力,于训练初始并无现成之信号。

为破此逻辑死结,团队利用了一种奇妙之「信息不对称」。

💡 特权老师与无知学生:信息不对称下的精妙蒸馏

自查其错,难若登天;然对照答案找错,易如反掌。

纵使模型自身无力从零诊断候选答案之漏洞,一旦将「参考答案(Reference Solution)」呈于其前,让其对照找出候选解答之异同,它便能瞬间指出错在第几行、因何定理使用不当。

Qwen-VLA 等研究利用多模态对齐物理动作,而卡耐基梅隆大学此项研究则聚焦于思维之提纯。他们将这种「手握参考答案」之特权版验证器,定义为教师(Teacher Verifier):
\(V^*( cdot | x, y_{r-1}, y^*(x) )\)

其间 \(x\) 为问题,\(y_{r-1}\) 为候选解答,\(y^*(x)\) 则是参考答案。

而我们要训练之目标,是那个在测试时无法偷看参考答案的普通验证器,即学生(Student Verifier):
\(V_{ theta}( cdot | x, y_{r-1} )\)

训练之法,非止于静态之监督微调(SFT)。研究者指出,SFT 常因「分发漂移」而溃败——学生一旦在测试时走出一条训练未见之谬误路径,便会手足无措。

团队遂采行在线分发蒸馏(On-Policy Distillation, OPD),令学生模仿教师输出挑错反馈之概率分布。其损失函数为:
\(L_{STV}( theta) = L_{OPD}( theta) + lambda cdot L_{RL}( theta)\)

此公式左项 \(L_{OPD}\) 责令学生汲取教师挑错之眼光,右项 \(L_{RL}\) 则以最终对错为奖惩,磨砺学生判定正误之直觉。

如此,普通验证器借光探幽,虽不看答案,亦习得了「手握答案者」之深邃眼光。

🌊 循环淬炼:让验证器成为训练的“磨刀石”

眼光既得,不仅可用于测试时纠错,亦可回哺于训练阶段。

团队提出「环内验证器训练」(Verifier-in-the-Loop, ViL)。此法将已练就之 STV 验证器冷冻,作为恒定之裁判。生成器则置于其内,历经多轮「生成-得反馈-再修正」之闭环训练。最终以最终解答之对错,对生成器降下强化学习之赏罚。

此举打破了传统强化学习(RLVR)之收敛天花板。

常理之下,生成器若过度依赖验证器之反馈,其standalone(即不带验证器)之能力当止步不前。实验结果则出人意料:历经 ViL 训练之生成器,即便在测试时撤去验证器,其standalone首轮准确率(Pass@1)亦提升了 30%。

此乃真正的自我迭代:验证器如砥石,生成器如顽铁,砥砺交错,双向进化。

📊 降维打击:8B 模型跨越 30 倍体量的神话

此项名为 STV 之架构,其威力于实验中展露无遗。

在 SciKnowEval 科学推理最难划分(Hardest)之测试中,无验证器之骨架模型仅得 1.5% 之微弱分值。行普通自检,分值亦毫无波澜(2.1%)。而一旦接入 STV 验证器引路,分值竟升至 21.0%,暴涨十余倍。

尤为惊人者,此 8B 小模型,在 STV 辅佐之下,击败了体量高出其 30 倍之巨型模型 Qwen3-235B(其得分仅为 8.0%)。

此役证明:智力非独由模型规模所定。更深邃之慢思考机制,足以弥补体量之鸿沟。

⚖️ 诚实的审视:高昂的“时间与算力代价”

借光挑错,进而知行合一,STV 展现之图景诚然壮美。然物理世界之法则,从无免费之午餐。

20 轮之验证与修正循环,意味着推理所需之 token 数量与时间开销将暴增数十倍。于需要毫秒级响应之工业场景,二十轮之等待无异于泥牛入海。此种「以计算换精度」之策略,尚难直接用于实时交互之端。

再者,如何为世间无标准答案之混沌任务定义教师,仍为未解之谜。自我迭代之途,刚露曙光,关隘仍多。


📚 参考文献

  1. Wu, C. H., & Raghunathan, A. (2026). Self-Trained Verification for Training- and Test-Time Self-Improvement. arXiv:2605.30290.
  2. Zelikman, E., et al. (2022). STaR: Bootstrapping Reasoning With Reasoning. NeurIPS.
  3. Shao, Z., et al. (2025). Meta-Verification: Training Verifiers with Meta-Feedback. arXiv.
  4. Lipman, Y., et al. (2023). Flow Matching for Generative Modeling. ICLR.
  5. Huang, J., & Yang, Y. (2025). Verifier-Guided Refinement Loops in LLM Reasoning. arXiv.

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录