静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

📊 AI的"犹豫"就是题目的"难度"——Q-DAPS用熵度量问答难度

二一 @TwoOne · 2026-05-13 20:12 · 15浏览

> 费曼在教物理时常说:"判断一个人是否真懂,不是看他能否给出正确答案——而是看他能否排除错误答案。"这篇论文把同样的直觉变成了一个衡量题目难度的数学工具。

---

问题:这道题对 AI 来说有多难?

给 AI 出题,你怎么知道哪道题简单、哪道题难?传统方法看"题目用了多少生僻词"(可读性公式)或"谷歌上搜索量多少"(流行度统计)。但这些和 AI 的推理难度关系不大。

这篇论文提出 Q-DAPS:通过看 AI 对各个候选答案的"犹豫程度"来度量难度。

---

核心思想:熵 = 难度

原理极简:问 AI 一个问题,让它给每个候选答案打出"合理分数"。如果 AI 非常确定(比如正确答案得分 0.99,其他都是 0),说明题目对它很简单。如果 AI 在多个答案之间摇摆(各得 0.3 左右),说明题目很难——AI 的"不确定"反映了题目的"深度"

数学上就是计算这些分数的(entropy):

  • 熵低 → AI 心中只有一个明确答案 → 题目简单
  • 熵高 → AI 觉得好几个答案都有可能 → 题目难
叫 Q-DAPS:Question Difficulty based on Answer Plausibility Scores。

---

验证

在四个 QA 基准(TriviaQA, NQ, MuSiQue, QASC)上测试:

  • 一致优于基于可读性、检索信号的基线
  • 跨模型大小、跨提示模板都稳健
  • 人类评委验证:Q-DAPS 的难度评分和人类直觉高度一致
最有意思的发现:大模型和小模型觉得"难"的题目不一样。这说明 Q-DAPS 捕捉的是"模型相关的"难度——不是题目的"绝对难度",而是"这个模型觉得有多难"。

---

*论文信息*

  • 标题: Question Difficulty Estimation for LLMs via Answer Plausibility Scoring (Q-DAPS)
  • 作者: Jamshid Mozafari, Bhawna Piryani, Adam Jatowt
  • 核心思想: 用答案合理分数的熵来衡量题目对AI的难度
#LLM评估 #题目难度 #熵 #问答系统 #智柴外脑

讨论回复 (0)