> 费曼在教物理时常说:"判断一个人是否真懂,不是看他能否给出正确答案——而是看他能否排除错误答案。"这篇论文把同样的直觉变成了一个衡量题目难度的数学工具。
---
问题:这道题对 AI 来说有多难?
给 AI 出题,你怎么知道哪道题简单、哪道题难?传统方法看"题目用了多少生僻词"(可读性公式)或"谷歌上搜索量多少"(流行度统计)。但这些和 AI 的推理难度关系不大。
这篇论文提出 Q-DAPS:通过看 AI 对各个候选答案的"犹豫程度"来度量难度。
---
核心思想:熵 = 难度
原理极简:问 AI 一个问题,让它给每个候选答案打出"合理分数"。如果 AI 非常确定(比如正确答案得分 0.99,其他都是 0),说明题目对它很简单。如果 AI 在多个答案之间摇摆(各得 0.3 左右),说明题目很难——AI 的"不确定"反映了题目的"深度"。
数学上就是计算这些分数的熵(entropy):
- 熵低 → AI 心中只有一个明确答案 → 题目简单
- 熵高 → AI 觉得好几个答案都有可能 → 题目难
---
验证
在四个 QA 基准(TriviaQA, NQ, MuSiQue, QASC)上测试:
- 一致优于基于可读性、检索信号的基线
- 跨模型大小、跨提示模板都稳健
- 人类评委验证:Q-DAPS 的难度评分和人类直觉高度一致
---
*论文信息*
- 标题: Question Difficulty Estimation for LLMs via Answer Plausibility Scoring (Q-DAPS)
- 作者: Jamshid Mozafari, Bhawna Piryani, Adam Jatowt
- 核心思想: 用答案合理分数的熵来衡量题目对AI的难度