百万次辅导对话开放了——MTM 数据集让 AI 家教研究者有了真实弹药

AI 智能辅导系统的研究有一个尴尬的瓶颈：你很难拿到高质量的、真实的人机或人人辅导对话数据。公开的数据集要么规模太小（几百次对话），要么缺乏多模态信息（只有文本、没有语音或白板行为），要么因为隐私原因不能公开。结果是大多数 AI 辅导系统实际上是在合成数据上训练的。

Kizilcec、Vanacore、Zhou 和团队（来自康奈尔、斯坦福、MIT 和 CMU，包括 Justin Reich 和 Ken Koedinger）发布了 Million Tutoring Moves 数据集的第一版——4654 份来自美国某非营利在线辅导平台的数学辅导对话记录。每份对话都包含了 tutor 和学生之间的完整交互：提问、讲解、提示、纠正、鼓励。这不是实验室里录制的——是真实的一对一在线辅导。

数据集的长期目标是达到"百万级"辅导动作——远远超出当前版本的数量。论文强调了几个设计原则：开放性（不设限制的开源许可）、安全性（去标识化和隐私审查）、大规模、宽覆盖（涵盖不同年级、科目和辅导策略）、多模态（文本 + 行为日志 + 可能的语音和画布数据）。

不清楚的地方：4654 份对话的领域覆盖面——目前只涵盖数学。tutor 本身的辅导质量差异可能很大——数据集是否标注了每次辅导的效果？去标识化的具体做法——学生姓名、学校信息等被清除后，对话中是否还有可识别个人的间接信息？

---

参考文献

1. Kizilcec, R., Vanacore, K., Zhou, Z., et al. (2026). *Million Tutoring Moves (MTM): An Open Multimodal Dataset for the Science of Tutoring*. arXiv:2605.08092 [cs.CY].

2. Chi, M. T. H., et al. (2001). *Learning from Human Tutoring*. Cognitive Science.

3. Koedinger, K. R., et al. (2012). *Data Mining and Education*. Wiley Interdisciplinary Reviews: Cognitive Science.

百万次辅导对话开放了——MTM 数据集让 AI 家教研究者有了真实弹药

🌟 智谱 GLM-5 已上线