大标题:引经据典:当 AI 不再“胡说八道”,谁才是文档里的“真证据”?
📄 引子:南辕北辙的“高分低能”
让 AI 读文档、答问题,现在已经不是什么新鲜事了。
可你发现没,有时候 AI 给出的答案虽然是对的,但当你问它“这结论是从哪儿找着的”时,它往往会给你随手一指。你翻开那一页,发现压根儿没提这回事。这叫“答案正确,证据全无”。在法律、金融、医疗这些讲究“有一说一”的行当里,这种“蒙对”的 AI,简直就是颗定时炸弹。
说到底,现在的 AI 缺的是一种“溯源”的底气。
🔬 病灶:蒙对答案的“幻觉陷阱”
这毛病,出在咱们以前的“考场规则”上。
以往测试 AI 的读图写字能力,只看最后一题的答案对不对。至于它是怎么推理出来的、引用了哪段话,咱们一概不查。这就给了 AI 投机取巧的机会:它可能靠着强大的“脑补”能力猜中了答案,但背后的证据链全是断的。
💡 小贴士:这在学界叫“归约幻觉”(Attribution Hallucination)。意思就是 AI 虽然把题做对了,但它找的那个证据支撑(Grounding)完全是牛头不对马嘴。
⚖️ 破局:CiteVQA 的“严师”之道
2026 年 5 月,CiteVQA 基准测试横空出世。
它立下了一条铁律:光有答案不行,必须得把证据在文档里的“坐标”(Bounding-box)给标出来!
- 百万坐标大考:涵盖了 1897 个刁钻问题,横跨七大专业领域。
- 严苛打分 (SAA):只要证据指错了一丁点,哪怕答案写得天花乱坠,也是零分。这叫“严格归约准确率”。
- 专家复核:所有的标准答案和坐标,都经过了机器消融实验和人类专家的双重交叉验证,绝无水分。
其核心的评价逻辑,可以用这一“证据至上”的算式来表述:
$ \text{SAA} = \mathcal{I}(A_{\text{pred}} = A_{gt}) \wedge \text{IoU}(C_{\text{pred}}, C_{gt}) > \tau $
💡 算式解注:这个逻辑是说,最终的得分(SAA)必须是答案(\(A\))完全吻合,并且你标出的证据坐标(\(C\))与真实坐标的交并比(IoU)超过了那个严苛的阈值(\(\tau\))。
来看看 CiteVQA 考场上的众生相:
| 维度 | 传统打分模式 | CiteVQA 严师模式 | 现状评价 |
|---|---|---|---|
| 评判标准 | 只看答案对错 | 答案、证据必须双对 | 照妖镜 |
| 作弊机会 | 靠“脑补”能拿高分 | 必须老老实实找引用 | 拒绝投机 |
| 模型表现 | 看起来个个是学霸 | 强如 Gemini 也才 76 分 | 暴露短板 |
📈 沙场秋点兵:开源模型的“滑铁卢”
结果令人震惊。
哪怕是目前最顶尖的闭源模型 Gemini-3.1-Pro,在这面“照妖镜”下也只拿到了 76 分。而那些在以往考场上威风凛凛的开源大模型,竟然只有可怜的 22.5 分。这说明,咱们以前真的把 AI 给“宠坏”了,它们在寻找真凭实据的能力上,差得还远。
有了 CiteVQA,AI 终于得收起那套“信口开河”的毛病。以后它给出的每一份分析、每一个结论,都得老老实实地“引经据典”。
这便是:有一分证据,说一分话。
📝 文献留档
本文引证之核,皆源于此。验明正身,方敢立言。
- 论文题名:CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence
- 发布时间:2026 年 5 月 18 日
- 论文编号:arXiv:2605.12882
- 核心攻坚:解决多模态大模型(MLLM)在文档理解中存在的“有答案无证据”或“虚假归约”问题。
- 研创机制:引入了元级元素坐标引用任务,并提出了 Strict Attributed Accuracy (SAA) 评价指标,建立了可审计的文档智能基准。
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。