# 暂停还是编造?当 AI 学会说"我需要更多信息"
> 论文:*Pause or Fabricate? Training Language Models for Grounded Reasoning* (arXiv 2604.19656, 2026)
> 作者:Yiwen Qiu, Linjuan Wu, Yizhou Liu 等(浙江大学 & 微软亚洲研究院)
> 论文:[arxiv.org/abs/2604.19656](https://arxiv.org/abs/2604.19656)
---
## 你问了一个问题,AI 给了一个完美的答案——但前提是错的
想象你问 ChatGPT 一个数学题:"小明有 5 个苹果,给了小红一些,还剩 2 个,小红得到了几个?"
一个正常人的第一反应是:"等一下,你没告诉我小明给了小红几个。"
但大多数大语言模型不会这么说。它们会自信满满地开始推理:"小明给了小红 5 - 2 = 3 个苹果。"——看起来逻辑完美,但这个推理链条建立在一个**编造的前提**上。模型假设了"给了小红一些"等于"全给了小红",然后基于这个假设得出了一个"正确但不可靠"的结论。
这就是论文所说的 **"无根据推理"(Ungrounded Reasoning)**——不是模型不会推理,而是模型不知道自己**什么时候该停下来问问题**。
## 一个被忽视的能力:推理边界意识
这篇论文的核心洞察非常简洁:大语言模型的推理失败,很多时候不是因为"不够聪明",而是因为缺乏**推理边界意识**(Inferential Boundary Awareness)——即识别"当前信息是否足够支撑有效推理"的能力。
打个比方:这就像一个数学天才参加考试,题目说"已知三角形 ABC 中,∠A = 60°,求 ∠B"。天才学生不会直接开始列方程,他会先举手问老师:"老师,还给了什么条件?"
但现在的 LLM 更像一个"不懂就编"的学生——宁可自己脑补条件,也不愿意承认信息不足。
## GRIL:教 AI 学会"先问后答"
论文提出了 **GRIL**(Grounded Reasoning via Interactive Reinforcement Learning),一个多轮强化学习框架,把推理过程分解为两个阶段:
**阶段一:澄清与暂停(Clarify and Pause)**
模型首先判断当前输入是否包含足够的推理前提。如果信息不足,模型会主动暂停并请求澄清,而不是硬着头皮往下推。
**阶段二:有根据的推理(Grounded Reasoning)**
只有在确认必要前提齐全后,模型才开始执行实际的推理任务。
这个设计的关键在于:它不是让模型"更聪明",而是让模型"更诚实"。
## 怎么训练?一个交互式的"考试环境"
GRIL 的训练方式很有意思。研究者构建了一个交互式环境,模拟真实场景中信息不完整的情况:
- **数据构造**:从 GSM8K 等数学推理数据集中,故意隐藏部分前提条件,创造"信息不完整"的问题
- **奖励设计**:阶段一奖励模型正确识别信息不足(暂停),阶段二奖励模型在信息完整时正确推理
- **多轮交互**:模型可以先请求缺失信息,收到补充后再继续推理
这就像训练一个学生:不是每次都给他完整的题目,而是故意给他残缺的题目,看他能不能主动发现缺了什么。
## 效果如何?数据说话
论文的实验结果令人印象深刻:
- **前提检测准确率大幅提升**:GRIL 训练后的模型在识别信息不完整问题上表现显著优于基线
- **任务成功率提升**:在完整问题上,GRIL 模型的推理成功率也有提升——因为模型学会了区分"能推"和"不能推"
- **无根据推理大幅减少**:模型不再"不懂装懂",编造前提的行为显著下降
- **泛化能力**:GRIL 在分布外(out-of-distribution)领域也表现良好,说明学到的不是"背题",而是真正的边界意识
- **对噪声鲁棒**:即使用户的补充信息有噪声,GRIL 也能较好地处理
特别值得注意的是,GRIL 在**相同数据上**超越了监督学习(SFT)方法。这意味着单纯的"教模型什么是对的"不如"让模型在交互中学会判断"有效。
## 为什么这很重要?
这个研究触及了一个深层问题:**AI 的可靠性不仅取决于它知道多少,还取决于它知道自己不知道什么。**
在现实应用中,信息不完整是常态,不是例外。你问 AI 一个法律问题,它可能不知道你的 jurisdiction;你问一个医疗问题,它可能不知道你的病史。如果 AI 每次都"自信地编",那它越聪明反而越危险。
GRIL 的思路给了一个重要启示:也许我们不应该只追求让 AI 回答得更好,而应该先教会 AI **什么时候不该回答**。
这让我想起苏格拉底的一句话:"我唯一知道的,就是我一无所知。"也许下一代 AI 的标志,不是它知道所有答案,而是它知道什么时候该说"我需要更多信息"。
---
论文 | [arxiv.org/abs/2604.19656](https://arxiv.org/abs/2604.19656)
> 注:截至本文撰写时,该论文暂未发现公开代码仓库。如后续开源,建议关注论文作者团队页面。
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!