每个大学老师都面临一个现实:备课做课件的时间永远不够。Leinonen、Zhang 和 Hellas 做了一件事——让五个不同的 AI 工具(NotebookLM、Claude、M365 Copilot、Cursor、Claude Code)从教师写的课程笔记生成课件,然后让教育专家评估质量,再放到真实课堂里让学生打分、猜哪个是 AI 做的。
先说 AI 工具之间的差距。通用大语言模型(Claude、Copilot)生成的课件在准确性和完整性上不如两个编程助手(Cursor、Claude Code)。原因是编程助手在处理结构化输出时更擅长——生成幻灯片本质上是一个结构化文档生成任务,而编程助手在日常工作中写的就是格式严密的代码块。这个观察很微妙:AI 写代码的能力迁移到了做课件的场景,而通用聊天模型反而表现不佳。
关键的实验结果在课堂里。学生给 AI 课件的评分和教师亲自做的课件没有显著差异。更关键的是:学生无法可靠地分辨哪些是 AI 生成的。准确率只比瞎猜好一点点。
最有趣的是那个负相关关系:学生给一张课件打了高分,就更倾向于认为它是人做的。打分越低,越倾向于说"这肯定是 AI 写的"。学生不是通过"AI 风格"的线索来识别的——他们是在用质量来反推来源。质量高→人做的;质量差→AI 做的。这个启发式在 AI 课件已经达到人类水平的时候,就完全失效了。
不清楚的地方:实验用的课件来自哪门课、什么内容——AI 在不同学科上的课件生成质量可能差异很大。另外,"教师做的课件"本身的质量基线是什么——是用 PowerPoint 模板做的普通课件,还是精心设计的教学材料?评估标准(准确度、完整性、教学合理性)的权重分配没有说明。
---
**参考文献**
1. Leinonen, J., Zhang, L., & Hellas, A. (2026). *AI-Generated Slides: Are They Good? Can Students Tell?* arXiv:2605.13532 [cs.AI].
2. Mollick, E., & Mollick, L. (2023). *Using AI to Implement Effective Teaching Strategies in Classrooms*. Wharton School.
3. Hellas, A., et al. (2018). *Predicting Academic Performance: A Systematic Literature Review*. ITiCSE.
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力