> 你请过家教吗? > > 真正好的家教,不是那种拿到题就直接给答案的——而是知道你上周哪里栽了跟头,知道你对三角函数比对数更怵,甚至会在你快要放弃的时候,突然丢过来一道"刚好能让你喘口气但又不能躺平"的题。 > > DeepTutor 想做的,就是这样的AI家教。不是搜索引擎,不是ChatGPT,而是一个记得你、懂你、还会主动找你的学习伴侣。
---
一、这不是又一个"AI答题器"
教育领域的大模型应用,目前基本是两类:
第一类,把课本塞给RAG,学生问啥答啥。本质是搜索引擎穿上教育的外衣。问题是:它不认识你。你今天问了一次"什么是拉格朗日乘数",明天它照样给你同一套解释,不管你昨天是否已经听懂了一半。
第二类,更高级一点,有对话记忆。但记忆是线性的——把聊天历史一股脑塞给模型,上下文一长就失忆,更别提从中提炼出"这学生到底哪里薄弱、哪里强"的结构性画像。
DeepTutor 的论文作者(香港大学 HKUDS 的 Zhao Bingxi 团队)开宗明义地指出:现有系统缺的不是知识,是对"人"的理解。
他们给出的解法,叫 Hybrid Personalization Engine(混合个性化引擎)——把静态的课程知识,和动态的、多分辨率的个人记忆,拧成一股绳。
---
二、Trace Forest:你的学习"案底"不是日记,是森林
DeepTutor 最独到的设计,是它的记忆结构,叫 Trace Forest(追踪森林)。
不是简单的"聊天记录",而是一个树状结构的交互历史:
- 每一轮辅导会话,都是一棵树
- 树的分支,记录了你从提问→探索→犯错→被纠正的完整路径
- 森林级别的聚合,提炼出你跨会话的长期画像:强点、弱点、偏好、易错模式
这让两个核心功能成为可能:
1. 宏观适配(Macro-adaptivity)
选什么题给你做,不是随机抽,而是基于你的知识状态。今天对微积分链式法则半吊子?那下道题就是针对这个薄弱点的变式题。2. 微观适配(Micro-adaptivity)
同一道题里,你卡在哪一步、需要多大的提示粒度,系统实时调整。就像真人老师看着你算到第二步就皱眉,立刻给恰到好处的点拨。---
三、闭环:解题和出题是同一个系统的两面
传统辅导系统有个毛病:解题和出题是两拨人(或两个模块)干的,互相不通气。
DeepTutor 搞了个 Closed Tutoring Loop(闭环辅导循环):
学生提问 → 检索知识 → 引导式解答(带引用) → 更新学习者画像
↑ ↓
└──── 根据新画像,生成针对性练习题 ────────────────────────┘
关键在这里的双向耦合:
- 解题时发现的弱点,直接写进你的画像,影响下一道生成题的难度和方向
- 做题时的表现,反过来精修画像,让后续的讲解更贴你的认知状态
---
四、TutorBot:从"你找我"变成"我找你"
这是 DeepTutor 最具野心的设计——主动性。
TutorBot 是一个多代理层,部署在12个消息平台上(Telegram、Discord、微信等)。它不是等你去问问题,而是会:
- 自主发起复习会话
- 根据诊断出的知识漏洞主动推送补救材料
- 整合每日练习报告
但论文也坦诚:这个 proactive 层的长期效果,还需要纵向部署研究来验证。主动打扰和主动关怀之间的界限,AI还在摸索。
---
五、TutorBench:用"学生模拟器"来考老师
怎么评估一个家教好不好?传统做法是让专家打分,看回答对不对、解释清不清楚。
DeepTutor 说不对——应该问学生满不满意。
于是他们造了 TutorBench:
- 5个大学级学科领域(不是只有数学)
- 每个测试用例带一个"学习者画像":知识漏洞、错误信念、学习风格
- 用 LLM 扮演这个学生,跟辅导系统多轮对话
- 对话结束后,用个性化评分标准评判
---
六、关键数字
| 指标 | 结果 |
|---|---|
| 个性化辅导质量提升 | +10.8%(相比基线Naive Tutor) |
| 跨5个backbone模型的通用推理增益 | +29.4%(仅用solver迁移) |
| 评估学科覆盖 | 5个领域 |
| 多通道支持 | 12个消息平台 |
| 代码状态 | 完全开源 |
---
七、三个值得争论的点
1. "记忆"的边界在哪里?
Trace Forest 记录了学生的学习历程。但教育数据是高度敏感的——一个学生的错误模式、知识漏洞、甚至"容易在哪个时间点放弃",都是人格画像的一部分。DeepTutor 开源了代码,但生产部署时的隐私架构,论文没有深入展开。
2. 主动性是蜜糖还是砒霜?
TutorBot 能主动推送学习材料。但教育心理学里有个概念叫 reactance(逆反心理)——人天生讨厌被管。一个AI天天催你"该复习了",学生会不会直接把通知静音?主动性的频率、语气、时机,可能比技术实现更难调。
3. 模拟学生能代替真实学生吗?
TutorBench 用 LLM 模拟学生来评估。虽然论文说这比"专家打分"更贴近学习者视角,但模拟学生的"挫败感"和真实人类的不一样——LLM不会真的因为被说"你这步错了"而感到羞耻或愤怒。评估协议还有进化空间。
---
八、开源生态
- 论文:arXiv:2604.26962
- 代码:https://github.com/HKUDS/DeepTutor
- 团队:香港大学 HKUDS(数据科学研究所)
- 安装:支持 guided tour 一键安装,也有手动部署路径
- Book Engine(把教材变成互动"活书")
- TutorBot(主动代理层)
- Math Animator(Manim驱动的数学动画生成)
---
结语
DeepTutor 最重要的贡献,不是某个具体指标提升了10.8%,而是它提出了一种架构范式:
> 共享个性化基底 + 主动部署层 = 长期陪伴式AI
这个范式不只适用于教育。任何需要"越用越懂你"的AI——医疗随访、健身教练、心理咨询助手——都可以借鉴这套设计。
教育的本质是关系。关系的核心是记忆。DeepTutor 让AI有了记忆,也让"AI家教"这个词,第一次听起来不那么像科幻了。
---
参考论文:
- Zhao, B., et al. (2026). DeepTutor: Towards Agentic Personalized Tutoring. arXiv:2604.26962.