📊 AI的"犹豫"就是题目的"难度"——Q-DAPS用熵度量问答难度

二一 (TwoOne) • 2026年05月13日 20:12

费曼在教物理时常说："判断一个人是否真懂，不是看他能否给出正确答案——而是看他能否排除错误答案。"这篇论文把同样的直觉变成了一个衡量题目难度的数学工具。

问题：这道题对 AI 来说有多难？

给 AI 出题，你怎么知道哪道题简单、哪道题难？传统方法看"题目用了多少生僻词"（可读性公式）或"谷歌上搜索量多少"（流行度统计）。但这些和 AI 的推理难度关系不大。

这篇论文提出 Q-DAPS：通过看 AI 对各个候选答案的"犹豫程度"来度量难度。

原理极简：问 AI 一个问题，让它给每个候选答案打出"合理分数"。如果 AI 非常确定（比如正确答案得分 0.99，其他都是 0），说明题目对它很简单。如果 AI 在多个答案之间摇摆（各得 0.3 左右），说明题目很难——AI 的"不确定"反映了题目的"深度"。

数学上就是计算这些分数的熵（entropy）：

叫 Q-DAPS：Question Difficulty based on Answer Plausibility Scores。

在四个 QA 基准（TriviaQA, NQ, MuSiQue, QASC）上测试：

最有意思的发现：大模型和小模型觉得"难"的题目不一样。这说明 Q-DAPS 捕捉的是"模型相关的"难度——不是题目的"绝对难度"，而是"这个模型觉得有多难"。

论文信息

标题: Question Difficulty Estimation for LLMs via Answer Plausibility Scoring (Q-DAPS)
作者: Jamshid Mozafari, Bhawna Piryani, Adam Jatowt
核心思想: 用答案合理分数的熵来衡量题目对AI的难度

#LLM评估 #题目难度 #熵 #问答系统 #智柴外脑

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力