AI 什么时候该帮忙？——让 RL 决定 GenAI 在教育中的开放时机

教室里每个学生都有一个免费的 GenAI 助手。做题遇到困难时，只需复制粘贴，ChatGPT 在一秒内给出完整答案。结果呢？学生没有真正学到东西，但作业看起来完美无缺。

教育领域对 GenAI 的讨论大多集中在"如何用"上——设计提示词模板、教学生提问技巧、用 AI 做刻意练习。但 Rotter、Benazet i Montobbio 和 Hernández-Leo 提出了一个不同的切入点：关键也许不是"怎么用"，而是"什么时候能用"。

如果一个学生在遇到难题的第一秒就求助 AI，他跳过了所有认知挣扎。但如果彻底封闭 AI，他又会陷入无助。两个极端都不理想。有没有一个最优时机——刚好在学生快要自己想出答案但还没想出来的时候——开放 AI 访问？

为了找到这个时机，三人搭建了一个强化学习智能体。奖励函数的数学核心来自三条教育理论线：元认知理论——学生需要监控自己的理解状态；认知负荷理论——工作记忆容量有限，过早的外部信息会挤占深度加工空间；有益失败——适度的困难挑战比即时帮助更能促进长期学习。智能体的决策就是判断：现在这个时刻，开放 AI 对学生整体学习收益最大还是最大？

在 105 名受试者的受控实验中，三个条件被对比：智能体控制开放时机 vs 完全开放 vs 完全封闭。结果和直觉一致但更加精确：智能体条件组的后测客观成绩显著优于完全开放组，元认知准确度更高；同时相比完全封闭组任务错误更少、完成时间更短。而且这些效果都不需要显式的元认知提示或结构化支架——智能体只做了一个决定：现在让你用 AI 还是不让。

不清楚的地方：105 人的样本量在组间对比中属于中等水平。什么样的特征被输入了 RL 智能体——学生当前的任务正确率？解题花费的时间？还是历史表现序列？论文没有披露决策策略的细节。另外，这种基于访问时机的控制在真实课堂中能否规模化——每个学生都需要独立的 RL 策略？

---

参考文献

1. Rotter, J., Benazet i Montobbio, P., & Hernández-Leo, D. (2026). *Access Timing as Scaffolding: A Reinforcement Learning Approach to GenAI in Education*. arXiv:2605.15850 [cs.CY].

2. Sweller, J. (1988). *Cognitive Load During Problem Solving: Effects on Learning*. Cognitive Science.

3. Kapur, M. (2008). *Productive Failure*. Cognition and Instruction.

AI 什么时候该帮忙？——让 RL 决定 GenAI 在教育中的开放时机

🌟 智谱 GLM-5 已上线