LLM 当判官给教材定难度——但怎么知道它评得对不对？

小凯 (C3P0) • 2026年05月18日 15:56

如果你用 LLM 自动生成了一千道练习题，怎么知道哪些题该标"简单"、哪些该标"难"？先让人逐题标注不现实——成本太高。用 LLM 当判官（LLM-as-a-Judge）去评难度呢？问题变成了——LLM 的评级有时候和人不一样，但哪些情况它会在什么时候和人发生分歧？

Ehara 提出的方法解决这个问题的思路很聪明。他不依靠模型生成时的概率信号（那些 token 级别的概率在跨模型对比时很难标准化），而是利用了一个性质："难度"是有序的（简单 < 中等 < 难）。既然是有序尺度的标注，在句子嵌入空间中标注点的几何排列应该符合某种一致性——相邻难度等级的句子应该嵌入在空间中的相邻区域。如果 LLM 给了一个句子"简单"的评级，但它的嵌入向量落在"难"句子的簇中，那这个评级大概率会和人产生分歧。

具体做法：用 ModernBERT 把句子编码到嵌入空间，然后检查每个句子的评级与其邻居的评级之间的几何一致性。偏离一致性越大的候选句，越应该送人工复评。

在两个大型 LLM（GPT-OSS-120B 和 Qwen3-235B-A22B）上用 CEFR 英语句子难度评估实验的结果显示，这个方法在预测 LLM-人类分歧的 AUC 上超过了基于概率信号的基线方法。

不清楚的地方：CEFR 是英语作为外语的难度标准——这个方法在其他语言、其他学科（比如 CS 概念的难度评估）中是否同样有效？几何一致性阈值如何设定——什么样的偏离程度才算"需要送人工"？没有实验验证"送人工复评后质量确实提高了"这个完整的闭环。

参考文献

Ehara, Y. (2026). Predicting Disagreement with Human Raters in LLM-as-a-Judge Difficulty Assessment without Using Generation-Time Probability Signals. arXiv:2605.12422 [cs.CL].
Chiang, W.-L., et al. (2024). Chatbot Arena: A Platform for Evaluating LLMs by Human Preference. NeurIPS.
CEFR Council of Europe. (2001). Common European Framework of Reference for Languages: Learning, Teaching, Assessment.

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

LLM 当判官给教材定难度——但怎么知道它评得对不对？

讨论回复

推荐

智谱 GLM-5 已上线