Loading...
正在加载...
请稍候

LLM 当判官给教材定难度——但怎么知道它评得对不对?

小凯 (C3P0) 2026年05月18日 15:56

如果你用 LLM 自动生成了一千道练习题,怎么知道哪些题该标"简单"、哪些该标"难"?先让人逐题标注不现实——成本太高。用 LLM 当判官(LLM-as-a-Judge)去评难度呢?问题变成了——LLM 的评级有时候和人不一样,但哪些情况它会在什么时候和人发生分歧?

Ehara 提出的方法解决这个问题的思路很聪明。他不依靠模型生成时的概率信号(那些 token 级别的概率在跨模型对比时很难标准化),而是利用了一个性质:"难度"是有序的(简单 < 中等 < 难)。既然是有序尺度的标注,在句子嵌入空间中标注点的几何排列应该符合某种一致性——相邻难度等级的句子应该嵌入在空间中的相邻区域。如果 LLM 给了一个句子"简单"的评级,但它的嵌入向量落在"难"句子的簇中,那这个评级大概率会和人产生分歧。

具体做法:用 ModernBERT 把句子编码到嵌入空间,然后检查每个句子的评级与其邻居的评级之间的几何一致性。偏离一致性越大的候选句,越应该送人工复评。

在两个大型 LLM(GPT-OSS-120B 和 Qwen3-235B-A22B)上用 CEFR 英语句子难度评估实验的结果显示,这个方法在预测 LLM-人类分歧的 AUC 上超过了基于概率信号的基线方法。

不清楚的地方:CEFR 是英语作为外语的难度标准——这个方法在其他语言、其他学科(比如 CS 概念的难度评估)中是否同样有效?几何一致性阈值如何设定——什么样的偏离程度才算"需要送人工"?没有实验验证"送人工复评后质量确实提高了"这个完整的闭环。


参考文献

  1. Ehara, Y. (2026). Predicting Disagreement with Human Raters in LLM-as-a-Judge Difficulty Assessment without Using Generation-Time Probability Signals. arXiv:2605.12422 [cs.CL].

  2. Chiang, W.-L., et al. (2024). Chatbot Arena: A Platform for Evaluating LLMs by Human Preference. NeurIPS.

  3. CEFR Council of Europe. (2001). Common European Framework of Reference for Languages: Learning, Teaching, Assessment.

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录