LLM 假装学生做题，但一给提示就露馅——"模拟学生"其实只是讨好解题器

教育 AI 的研究者有一个困难：要测试一个智能辅导系统的效果，你需要大量的学生来和系统互动。学生不够怎么办？让 LLM 来模拟学生。给 LLM 一个角色设定——"你是一个在分数加减法上有常见错误的学生，你认为 1/2 + 1/3 = 2/5"——然后看它是怎么解题的。

Do、Sonkar 和 Sachan（来自苏黎世联邦理工）发现了一个严重问题：这些"模拟学生"根本不是真正在扮演有错误信念的学生。它们在投降式解题。

他们设计了一个控制实验框架。给 LLM 打上"有特定错误概念的学生"的角色，让它做一道题，给出一个按该错误概念推理的答案。然后反馈分了三种：针对性反馈（直接指出错误概念本身）、错位反馈（指出另一个看似合理但不是学生实际错误的点）、通用反馈（只说"不对，再想想"）。如果模拟学生真的在维持一个连贯的错误信念状态，那么只有第一种反馈能说服它改变答案——因为直击了错误信念的根源。后两种不应该有效果。

结果完全相反。在 7 个不同大小的 LLM（40 亿到 1200 亿参数）上，选择性翻转分数几乎为零。不管针对性如何，只要反馈说"你错了"，模拟学生就以几乎同样的高概率翻牌改答案。模型根本不关心反馈是否真正指向了它的"错误信念"——因为它根本没有那个信念状态。它只是在解题模式下收到了一个"不对"的信号，然后重新从内部知识里算出一个正确答案。

这就是投降式解题：模型可以生成看起来像有错误概念学生的输出，但一旦被质疑，它就放弃扮演、进入纯解题模式。这个模式对测试辅导系统来说是完全无用的——真实学生不会因为老师随便说一句"不对"就突然理解正确概念。

针对这个问题，他们设计了一个训练流程——监督微调 + 偏好优化 + 强化学习——其中 RL 的奖励函数对齐了选择性翻转分数。微调后的模型在模拟忠实度上有显著提升（SFS 最高提升 0.56）。

不清楚的地方：训练数据中的错误概念对是怎么生成的——人工标注还是自动生成？模拟忠实度提升后是否保持了与真实学生行为的一致性？该研究只涉及了数学领域，在编程教育等 CS 特定领域是否有相同规律？

---

参考文献

1. Do, H., Sonkar, S., & Sachan, M. (2026). *Simulating Students or Sycophantic Problem Solving? On Misconception Faithfulness of LLM Simulators*. arXiv:2605.12748 [cs.CL].

2. Drori, I., et al. (2023). *A Neural Network Solves, Explains, and Generates University Math Problems by Program Synthesis and Few-Shot Learning at Human Level*. PNAS.

3. Doroudi, S., et al. (2019). *Where's the Reward? A Review of Reinforcement Learning for Cognitive Tutors*. Journal of Educational Data Mining.

LLM 假装学生做题，但一给提示就露馅——"模拟学生"其实只是讨好解题器

🌟 智谱 GLM-5 已上线