"AI 垃圾"还是"AI 增强"？——106 名香港学生用真实成绩回答了这个问题

项目	内容
标题	AI Slop or AI-enhancement? Student perceptions of AI-generated media for an English for Academic Purposes course
作者	David James Woo, Deliang Wang, Kai Guo
arXiv	2605.16275 (cs.CY, cs.AI, cs.CL, cs.MM)
日期	2026 年 4 月，23 页
核心贡献	首次实证研究 AI 生成教学材料是"AI 垃圾"还是"AI 增强"——106 名香港 EFL 学生，3 项媒体+视频偏好与成绩正相关，高认知负荷与成绩负相关，差生自发使用 AI 材料作为补救支架
链接	https://arxiv.org/abs/2605.16275

先聊聊"slop"这个词。

英文里有一种新的概念叫"AI slop"——指 AI 大量生产的低质量内容。像工业废水一样溢出的幻灯片、像塑料花一样批量生成的信息图、像录音机卡带一样循环的播客。这些东西的共同特征是：量很大、看着像回事、但没有人真的需要。

在教育界，"AI slop"这个词带着一种道德恐慌。老师们担心学生用 AI 写敷衍的作业——但我们这里说的是反过来：如果老师用 AI 批量生成学习材料会发生什么？学生能分辨出"垃圾"和"好东西"吗？那些材料真的对学习有帮助吗？

论文的标题本身就是这个问题的镜像映射：AI Slop or AI-enhancement？

答案是：取决于你怎么设计。 而且——这是论文真正有趣的地方——不是所有 AI 材料都一样。某些类型的学生确实从中受益，另外一些则被额外的认知负担伤害了。

👨‍🏫 2. 实验：106 名香港 EFL 学生的真实课堂

这是在香港社区学院的一门真实学术英语（English for Academic Purposes）课程——不是实验室实验。106 名英语作为外语的学习者——对他们来说，学术英语相当于"用第二语言的困难去做第三任务"。

老师使用 Google NotebookLM（一个基于检索增强生成的 RAG 工具）从课程材料和学生作业中生成了四类 AI 材料：

视频：从课程内容生成的解释性视频
播客：音频形式的课程内容讲解
信息图：视觉化总结的 infographics
个性化反馈报告：根据每个学生的作业生成的个体化评价

这四类材料被嵌入正常的课程流程中——不是"专门用 AI"的实验课，而是学生的常规学习计划。

在课程结束后，论文使用了解释性顺序混合方法——先做问卷调查、再做半结构化访谈、最后把学生的偏好和课程成绩做相关性分析。

🔍 3. 核心发现：视频偏好与成绩正相关

结果显示了三个层面的呼应。

层面一：学生普遍认为 AI 生成的材料有用且易用——这是科技接受模型（Technology Acceptance Model）的标准评估维度。所有材料的平均接受度都在高水平——没有人认为这些材料是"垃圾"。

层面二：不是所有材料都平等。 学生明显偏好与评估挂钩的内容——考试要考的内容被生成成视频——以及视觉和多模态形式。视频和信息图是最受欢迎的。 播客相对冷淡——学生说"音频可以听，但没有视觉支持对学术内容来说很难跟上"。

层面三：视频偏好与学术表现呈正相关。 那些在问卷中说"视频对我最有用"的学生，其期末成绩显著高于选其他选项的学生。这是一个相关性，不是因果——论文没有做过实验去证明"看视频造成成绩提高"——但这种关联在统计上是显著的。

📉 4. 认知负荷是隐形成本

论文最有价值的发现可能是这个：

高认知负荷与成绩呈负相关。

技术接受模型的另一边是认知负荷理论——你接受的媒体如果设计复杂度过高，信息本身的"学习效果"会被处理成本吃掉。论文使用标准的认知负荷评估工具测量学生的感受——结果显示，虽然所有材料的平均接受度很高，但在认知负荷分布上出现了分化：

一些学生报告在处理 infographics 时的"内在认知负荷"大幅增加——因为理解那些图形本身就需要消耗注意力
一些学生在听播客时报告"外部认知负荷"——因为他们需要同时想象语言、想象图片、记住学术术语

论文的核心建议是：AI 生成的批量材料必须按学生的认知处理能力进行分层校准。 不是"把 AI 视频随便加到课程里"——而是"视频设计复杂度必须匹配受众的当前认知水平"。批量生产的材料如果没有分层设计，就从增强变成了噪音。

💡 5. 谁是最大的受益者？

论文报告了一个重要的、但论文本身没有充分展开的发现：

一些成绩较差的学生自发将 AI 材料用作补救支架。 他们没有被告知"用这个补救学习"——他们在问卷后评论中报告了自己这么做了。

在访谈中，这些学生描述的行为模式是：课后打开视频、反复观看——不是一次消费，而是重复使用——把 AI 生成的解释当作"可暂停的改错机制"：暂停、倒回、查看信息图、再继续。

论文提出这个现象时措辞谨慎——样本量有限，不能做统计推论——但这是一个概念上具有爆发力的观察：AI 增强材料不是均匀地"平均提升"所有学生——而是最高度地改善了那些最需要它的学生。 如果这个模式在大规模数据中被复现，它意味着 AI 教学材料可能是一种"反马太效应"的工具——弱者得到了更多支持，而不是强者固化了优势。

⚠️ 6. 理论局限：我能确定的部分和不能确定的部分

我需要坦诚地指出论文的几个方法论约束。

第一，"slop"和"enhancement"的二元区分不充分。 论文把问题提出为"AI 垃圾还是 AI 增强"——但这个框架假设材料的质量是一个单一的维度。实际上，一份 AI 生成的视频可能同时包含"极度偏差"（对文化的刻板印象没有被 AI 检测到）和"极准确的语法解释"。所以"垃圾/增强"的二元标签可能模糊了 AI 内容的混合本质。

第二，学生感知测量不等于学习效果测量。 论文的结论主要基于学生的感受——"我觉得这个材料有用"。学生的主观感知和学习效果的客观改善之间有间隙——特别是在学术英语领域，主观感觉和客观进步之间的关联本身就不高。唯一的学习效果代理变量是期末成绩——但期末成绩和学生偏好之间的显相关性不能归因"AI 材料造成了成绩提高"。

第三，RAG 基线的选择问题。 论文使用 Google NotebookLM 作为唯一的 RAG 工具。"学生觉得 AI 材料好"在多大程度上归因于 NotebookLM 的设计特征、内容生成风格、输出格式——而不是 RAG 方法的通用特征？切换到一个不同的 RAG 工具可能产生完全不同的接受度分布。这意味着论文的结论对于"RAG 工具的差异选择"是非稳健的。

第四，学生群体同质性。 106 名香港社区学院的学生——全部是 EFL 学习者——完全不能代表全球教育环境。不同教育文化对"权威材料"和"AI 生成材料"的信任感知可能完全不同。

🎓 我的判断

论文最有价值的不是"视频偏好与成绩正相关"这个结论——而是它最终拒绝了"AI slop"这个粗略框架。

"AI slop"这个概念的预设是：AI 生成型内容是质量的下限——一出现就应该被拒绝。但实验数据表明这在教育领域可能完全不成立。学生不仅没有把 AI 材料当作垃圾——他们主动把它用作学习支架。而且这个使用不是均匀分布在所有学生身上——恰恰是那些需要最多帮助的学生从这些材料中受益最大。

结论不是"AI 生成教材好"——而是"AI 生成教材的好坏取决于你设计中是否考虑了认知分层、评估对齐、补救机制"。如果你把 AI 作为"内容批量生成器"丢进教室，你会得到 slop。如果你把 AI 作为"个性化学习增强器"进行有意图的设计，你会得到 enhancement。

从哲学上讲——也许"slop"和"enhancement"不是材料的属性——而是插入方式的属性。

📚 参考文献

1. Woo, D.J., Wang, D., Guo, K. (2026). AI Slop or AI-enhancement? Student perceptions of AI-generated media for an English for Academic Purposes course. arXiv:2605.16275. 2. Sweller, J. (1988). Cognitive load during problem solving: Effects on learning. Cognitive Science. 3. Davis, F.D. (1989). Perceived Usefulness, Perceived Ease of Use, and User Acceptance of Information Technology. MIS Quarterly. 4. Mayer, R.E. (2021). Multimedia Learning (3rd ed.). Cambridge University Press.

#AIinEducation #EdTech #CognitiveLoad #RAG #FeynmanLearning #智柴系统实验室🎙️

"AI 垃圾"还是"AI 增强"？——106 名香港学生用真实成绩回答了这个问题

🌟 智谱 GLM-5 已上线