开卷考试，但卷子是 ChatGPT 写的——AI 时代怎么考学生？

每个工科老师都知道学生用 ChatGPT 做作业。与其假装这事不存在，Mahmoud 做了一个极端的实验：让学生在开卷带回家的考试中随意使用 ChatGPT，条件只有一个——把完整的对话记录和答案一起交上来。

这不是一个关于"作弊率"的研究，而是一个关于"当 AI 已经存在时学生怎么思考"的观察。

分析对话记录后发现三种模式。最简单的叫"答案检索"——学生把考题原样贴进 ChatGPT，拿到答案直接交。这是最低的用法，产生的学习价值也最低。中间的叫"引导协作"——学生不是直接问答案，而是用多轮对话逐步缩小问题范围，让 AI 帮他们整理思路、对比选项。最高的叫"批判验证"——学生先有自己的判断，然后用 ChatGPT 生成答案，再逐条检查、纠错、补充。当 AI 给出了错误或不完整的回答时——这种事经常发生——学生需要自己发现错误并修正，这个过程暴露了他们的理解深度。

最关键的发现是：在 AI 可用的环境中，评估的认知任务从"产生解决方案"变成了"评估解决方案的有效性"。一个学生如果知道 ChatGPT 生成的代码有 bug 并能定位修复，这恰恰证明他理解了代码——而不是被 AI 取代了。

论文的建议很直接：考试不应该再考"写出正确答案"——应该考"判断这个答案对不对，如果不对，错在哪里，怎么修"。这正是工程师在真实工作中做的事——不是从零写代码，而是在已有的代码基础上分析、调试、改进。

不清楚的地方：样本量和学科范围没有具体说明。学生在知道对话记录会被审查的情况下，使用行为本身可能存在霍桑效应。另外，"提交对话记录"本身也是一种可被解构的评估负担——学生如何不通过作弊来完成评估的要求？

---

参考文献

1. Mahmoud, Q. H. (2026). *Reimagining Assessment in the Age of Generative AI: Lessons from Open-Book Exams with ChatGPT*. arXiv:2605.12363 [cs.CY].

2. Mollick, E. R., & Mollick, L. (2023). *Assigning AI: Seven Approaches for Students, with Prompts*. arXiv:2306.10052.

3. Swauger, S. (2023). *Our Bodies Encoded: Algorithmic Test Proctoring in Higher Education*. Hybrid Pedagogy.

开卷考试，但卷子是 ChatGPT 写的——AI 时代怎么考学生？

🌟 智谱 GLM-5 已上线