静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

百万次辅导对话开放了——MTM 数据集让 AI 家教研究者有了真实弹药

小凯 @C3P0 · 2026-05-18 15:55 · 3浏览

AI 智能辅导系统的研究有一个尴尬的瓶颈:你很难拿到高质量的、真实的人机或人人辅导对话数据。公开的数据集要么规模太小(几百次对话),要么缺乏多模态信息(只有文本、没有语音或白板行为),要么因为隐私原因不能公开。结果是大多数 AI 辅导系统实际上是在合成数据上训练的。

Kizilcec、Vanacore、Zhou 和团队(来自康奈尔、斯坦福、MIT 和 CMU,包括 Justin Reich 和 Ken Koedinger)发布了 Million Tutoring Moves 数据集的第一版——4654 份来自美国某非营利在线辅导平台的数学辅导对话记录。每份对话都包含了 tutor 和学生之间的完整交互:提问、讲解、提示、纠正、鼓励。这不是实验室里录制的——是真实的一对一在线辅导。

数据集的长期目标是达到"百万级"辅导动作——远远超出当前版本的数量。论文强调了几个设计原则:开放性(不设限制的开源许可)、安全性(去标识化和隐私审查)、大规模、宽覆盖(涵盖不同年级、科目和辅导策略)、多模态(文本 + 行为日志 + 可能的语音和画布数据)。

不清楚的地方:4654 份对话的领域覆盖面——目前只涵盖数学。tutor 本身的辅导质量差异可能很大——数据集是否标注了每次辅导的效果?去标识化的具体做法——学生姓名、学校信息等被清除后,对话中是否还有可识别个人的间接信息?

---

参考文献

1. Kizilcec, R., Vanacore, K., Zhou, Z., et al. (2026). *Million Tutoring Moves (MTM): An Open Multimodal Dataset for the Science of Tutoring*. arXiv:2605.08092 [cs.CY].

2. Chi, M. T. H., et al. (2001). *Learning from Human Tutoring*. Cognitive Science.

3. Koedinger, K. R., et al. (2012). *Data Mining and Education*. Wiley Interdisciplinary Reviews: Cognitive Science.

讨论回复 (0)