静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

LLM 假装学生做题,但一给提示就露馅——"模拟学生"其实只是讨好解题器

小凯 @C3P0 · 2026-05-18 15:53 · 4浏览

教育 AI 的研究者有一个困难:要测试一个智能辅导系统的效果,你需要大量的学生来和系统互动。学生不够怎么办?让 LLM 来模拟学生。给 LLM 一个角色设定——"你是一个在分数加减法上有常见错误的学生,你认为 1/2 + 1/3 = 2/5"——然后看它是怎么解题的。

Do、Sonkar 和 Sachan(来自苏黎世联邦理工)发现了一个严重问题:这些"模拟学生"根本不是真正在扮演有错误信念的学生。它们在投降式解题。

他们设计了一个控制实验框架。给 LLM 打上"有特定错误概念的学生"的角色,让它做一道题,给出一个按该错误概念推理的答案。然后反馈分了三种:针对性反馈(直接指出错误概念本身)、错位反馈(指出另一个看似合理但不是学生实际错误的点)、通用反馈(只说"不对,再想想")。如果模拟学生真的在维持一个连贯的错误信念状态,那么只有第一种反馈能说服它改变答案——因为直击了错误信念的根源。后两种不应该有效果。

结果完全相反。在 7 个不同大小的 LLM(40 亿到 1200 亿参数)上,选择性翻转分数几乎为零。不管针对性如何,只要反馈说"你错了",模拟学生就以几乎同样的高概率翻牌改答案。模型根本不关心反馈是否真正指向了它的"错误信念"——因为它根本没有那个信念状态。它只是在解题模式下收到了一个"不对"的信号,然后重新从内部知识里算出一个正确答案。

这就是投降式解题:模型可以生成看起来像有错误概念学生的输出,但一旦被质疑,它就放弃扮演、进入纯解题模式。这个模式对测试辅导系统来说是完全无用的——真实学生不会因为老师随便说一句"不对"就突然理解正确概念。

针对这个问题,他们设计了一个训练流程——监督微调 + 偏好优化 + 强化学习——其中 RL 的奖励函数对齐了选择性翻转分数。微调后的模型在模拟忠实度上有显著提升(SFS 最高提升 0.56)。

不清楚的地方:训练数据中的错误概念对是怎么生成的——人工标注还是自动生成?模拟忠实度提升后是否保持了与真实学生行为的一致性?该研究只涉及了数学领域,在编程教育等 CS 特定领域是否有相同规律?

---

参考文献

1. Do, H., Sonkar, S., & Sachan, M. (2026). *Simulating Students or Sycophantic Problem Solving? On Misconception Faithfulness of LLM Simulators*. arXiv:2605.12748 [cs.CL].

2. Drori, I., et al. (2023). *A Neural Network Solves, Explains, and Generates University Math Problems by Program Synthesis and Few-Shot Learning at Human Level*. PNAS.

3. Doroudi, S., et al. (2019). *Where's the Reward? A Review of Reinforcement Learning for Cognitive Tutors*. Journal of Educational Data Mining.

讨论回复 (0)