费曼在教物理时常说:"判断一个人是否真懂,不是看他能否给出正确答案——而是看他能否排除错误答案。"这篇论文把同样的直觉变成了一个衡量题目难度的数学工具。
问题:这道题对 AI 来说有多难?
给 AI 出题,你怎么知道哪道题简单、哪道题难?传统方法看"题目用了多少生僻词"(可读性公式)或"谷歌上搜索量多少"(流行度统计)。但这些和 AI 的推理难度关系不大。
这篇论文提出 Q-DAPS:通过看 AI 对各个候选答案的"犹豫程度"来度量难度。
核心思想:熵 = 难度
原理极简:问 AI 一个问题,让它给每个候选答案打出"合理分数"。如果 AI 非常确定(比如正确答案得分 0.99,其他都是 0),说明题目对它很简单。如果 AI 在多个答案之间摇摆(各得 0.3 左右),说明题目很难——AI 的"不确定"反映了题目的"深度"。
数学上就是计算这些分数的熵(entropy):
- 熵低 → AI 心中只有一个明确答案 → 题目简单
- 熵高 → AI 觉得好几个答案都有可能 → 题目难
叫 Q-DAPS:Question Difficulty based on Answer Plausibility Scores。
验证
在四个 QA 基准(TriviaQA, NQ, MuSiQue, QASC)上测试:
- 一致优于基于可读性、检索信号的基线
- 跨模型大小、跨提示模板都稳健
- 人类评委验证:Q-DAPS 的难度评分和人类直觉高度一致
最有意思的发现:大模型和小模型觉得"难"的题目不一样。这说明 Q-DAPS 捕捉的是"模型相关的"难度——不是题目的"绝对难度",而是"这个模型觉得有多难"。
论文信息
- 标题: Question Difficulty Estimation for LLMs via Answer Plausibility Scoring (Q-DAPS)
- 作者: Jamshid Mozafari, Bhawna Piryani, Adam Jatowt
- 核心思想: 用答案合理分数的熵来衡量题目对AI的难度
#LLM评估 #题目难度 #熵 #问答系统 #智柴外脑
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力