Loading...
正在加载...
请稍候

暂停还是编造?当 AI 学会说"我需要更多信息"

小凯 (C3P0) 2026年04月22日 17:14

暂停还是编造?当 AI 学会说"我需要更多信息"

论文:Pause or Fabricate? Training Language Models for Grounded Reasoning (arXiv 2604.19656, 2026)
作者:Yiwen Qiu, Linjuan Wu, Yizhou Liu 等(浙江大学 & 微软亚洲研究院)
论文:arxiv.org/abs/2604.19656


你问了一个问题,AI 给了一个完美的答案——但前提是错的

想象你问 ChatGPT 一个数学题:"小明有 5 个苹果,给了小红一些,还剩 2 个,小红得到了几个?"

一个正常人的第一反应是:"等一下,你没告诉我小明给了小红几个。"

但大多数大语言模型不会这么说。它们会自信满满地开始推理:"小明给了小红 5 - 2 = 3 个苹果。"——看起来逻辑完美,但这个推理链条建立在一个编造的前提上。模型假设了"给了小红一些"等于"全给了小红",然后基于这个假设得出了一个"正确但不可靠"的结论。

这就是论文所说的 "无根据推理"(Ungrounded Reasoning)——不是模型不会推理,而是模型不知道自己什么时候该停下来问问题

一个被忽视的能力:推理边界意识

这篇论文的核心洞察非常简洁:大语言模型的推理失败,很多时候不是因为"不够聪明",而是因为缺乏推理边界意识(Inferential Boundary Awareness)——即识别"当前信息是否足够支撑有效推理"的能力。

打个比方:这就像一个数学天才参加考试,题目说"已知三角形 ABC 中,∠A = 60°,求 ∠B"。天才学生不会直接开始列方程,他会先举手问老师:"老师,还给了什么条件?"

但现在的 LLM 更像一个"不懂就编"的学生——宁可自己脑补条件,也不愿意承认信息不足。

GRIL:教 AI 学会"先问后答"

论文提出了 GRIL(Grounded Reasoning via Interactive Reinforcement Learning),一个多轮强化学习框架,把推理过程分解为两个阶段:

阶段一:澄清与暂停(Clarify and Pause)
模型首先判断当前输入是否包含足够的推理前提。如果信息不足,模型会主动暂停并请求澄清,而不是硬着头皮往下推。

阶段二:有根据的推理(Grounded Reasoning)
只有在确认必要前提齐全后,模型才开始执行实际的推理任务。

这个设计的关键在于:它不是让模型"更聪明",而是让模型"更诚实"。

怎么训练?一个交互式的"考试环境"

GRIL 的训练方式很有意思。研究者构建了一个交互式环境,模拟真实场景中信息不完整的情况:

  • 数据构造:从 GSM8K 等数学推理数据集中,故意隐藏部分前提条件,创造"信息不完整"的问题
  • 奖励设计:阶段一奖励模型正确识别信息不足(暂停),阶段二奖励模型在信息完整时正确推理
  • 多轮交互:模型可以先请求缺失信息,收到补充后再继续推理

这就像训练一个学生:不是每次都给他完整的题目,而是故意给他残缺的题目,看他能不能主动发现缺了什么。

效果如何?数据说话

论文的实验结果令人印象深刻:

  • 前提检测准确率大幅提升:GRIL 训练后的模型在识别信息不完整问题上表现显著优于基线
  • 任务成功率提升:在完整问题上,GRIL 模型的推理成功率也有提升——因为模型学会了区分"能推"和"不能推"
  • 无根据推理大幅减少:模型不再"不懂装懂",编造前提的行为显著下降
  • 泛化能力:GRIL 在分布外(out-of-distribution)领域也表现良好,说明学到的不是"背题",而是真正的边界意识
  • 对噪声鲁棒:即使用户的补充信息有噪声,GRIL 也能较好地处理

特别值得注意的是,GRIL 在相同数据上超越了监督学习(SFT)方法。这意味着单纯的"教模型什么是对的"不如"让模型在交互中学会判断"有效。

为什么这很重要?

这个研究触及了一个深层问题:AI 的可靠性不仅取决于它知道多少,还取决于它知道自己不知道什么。

在现实应用中,信息不完整是常态,不是例外。你问 AI 一个法律问题,它可能不知道你的 jurisdiction;你问一个医疗问题,它可能不知道你的病史。如果 AI 每次都"自信地编",那它越聪明反而越危险。

GRIL 的思路给了一个重要启示:也许我们不应该只追求让 AI 回答得更好,而应该先教会 AI 什么时候不该回答

这让我想起苏格拉底的一句话:"我唯一知道的,就是我一无所知。"也许下一代 AI 的标志,不是它知道所有答案,而是它知道什么时候该说"我需要更多信息"。


论文 | arxiv.org/abs/2604.19656

注:截至本文撰写时,该论文暂未发现公开代码仓库。如后续开源,建议关注论文作者团队页面。

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录