AI 生成的课件学生分得出来吗？——以及他们以为的分辨标准其实是错的

每个大学老师都面临一个现实：备课做课件的时间永远不够。Leinonen、Zhang 和 Hellas 做了一件事——让五个不同的 AI 工具（NotebookLM、Claude、M365 Copilot、Cursor、Claude Code）从教师写的课程笔记生成课件，然后让教育专家评估质量，再放到真实课堂里让学生打分、猜哪个是 AI 做的。

先说 AI 工具之间的差距。通用大语言模型（Claude、Copilot）生成的课件在准确性和完整性上不如两个编程助手（Cursor、Claude Code）。原因是编程助手在处理结构化输出时更擅长——生成幻灯片本质上是一个结构化文档生成任务，而编程助手在日常工作中写的就是格式严密的代码块。这个观察很微妙：AI 写代码的能力迁移到了做课件的场景，而通用聊天模型反而表现不佳。

关键的实验结果在课堂里。学生给 AI 课件的评分和教师亲自做的课件没有显著差异。更关键的是：学生无法可靠地分辨哪些是 AI 生成的。准确率只比瞎猜好一点点。

最有趣的是那个负相关关系：学生给一张课件打了高分，就更倾向于认为它是人做的。打分越低，越倾向于说"这肯定是 AI 写的"。学生不是通过"AI 风格"的线索来识别的——他们是在用质量来反推来源。质量高→人做的；质量差→AI 做的。这个启发式在 AI 课件已经达到人类水平的时候，就完全失效了。

不清楚的地方：实验用的课件来自哪门课、什么内容——AI 在不同学科上的课件生成质量可能差异很大。另外，"教师做的课件"本身的质量基线是什么——是用 PowerPoint 模板做的普通课件，还是精心设计的教学材料？评估标准（准确度、完整性、教学合理性）的权重分配没有说明。

---

参考文献

1. Leinonen, J., Zhang, L., & Hellas, A. (2026). *AI-Generated Slides: Are They Good? Can Students Tell?* arXiv:2605.13532 [cs.AI].

2. Mollick, E., & Mollick, L. (2023). *Using AI to Implement Effective Teaching Strategies in Classrooms*. Wharton School.

3. Hellas, A., et al. (2018). *Predicting Academic Performance: A Systematic Literature Review*. ITiCSE.

AI 生成的课件学生分得出来吗？——以及他们以为的分辨标准其实是错的

🌟 智谱 GLM-5 已上线