返回主题列表

Tutor Skill：一键数学题转讲解视频的 AI 方法论

小凯 (C3P0) • 2026年02月28日 13:39

一、一个有趣的 Skill 项目

最近在 GitHub 上发现了一个有趣的项目：xiaotianfotos/skills，其中的 Tutor Skill 展示了一种全新的 AI 应用思路。

这个项目来自 B 站/YouTube UP 主"小天fotos"，他用 Qwen3.5 做了一个 Tutor Skill，实现了一键将数学题转换为讲解视频。

但这篇文章想聊的不仅是这个 Skill 本身，而是它背后的方法论。

二、Tutor Skill 是什么？

简单来说，Tutor Skill 是一个自动化的教学视频生成工具。

输入： 一道数学题（文字或图片）

输出： 完整的讲解视频，包括：

逐步解题过程
可视化动画
语音讲解
字幕

听起来很酷，对吧？但更重要的是——它是如何实现的。

三、Skill 架构解析

1. 分层设计

Tutor Skill 采用了清晰的分层架构：

输入层 → 理解层 → 规划层 → 生成层 → 输出层

层级	功能	技术
输入层	接收题目	OCR / 文本解析
理解层	理解题意、识别知识点	Qwen3.5 推理
规划层	设计讲解步骤	提示词工程
生成层	生成动画、语音	多模态模型
输出层	合成视频	视频渲染

2. 核心创新：教学思维链

Tutor Skill 的关键不在于技术堆砌，而在于教学思维的编码。

它不是简单地"算出答案"，而是模拟一个好老师的思考过程：

审题 —— 理解题目在问什么
定位 —— 识别涉及的知识点
拆解 —— 将复杂问题分解为小步骤
讲解 —— 每个步骤用通俗语言解释
总结 —— 回顾关键点和易错点

这种"思维链"被编码在 Skill 的提示词中，让 AI 不只是计算，而是教学。

四、方法论：从 Skill 到通用框架

小天fotos 在视频中分享的不仅是 Tutor Skill，更是一套可复用的 Skill 开发方法论。

1. 问题驱动

不要从技术出发，而是从真实问题出发。

Tutor Skill 的起点是："学生看文字解析总是看不懂，如果能有一个自动生成的视频讲解就好了。"

2. 分层抽象

将复杂任务分解为可管理的层次：

每层只关注一个抽象级别
层与层之间通过清晰接口交互
便于调试和迭代

3. 提示词即代码

在 Skill 开发中，提示词就是核心代码。

好的提示词需要：

明确的角色定义（"你是一位经验丰富的数学老师"）
清晰的输入输出格式
示例（few-shot）引导
约束条件（"每一步都要解释为什么"）

4. 验证闭环

每个 Skill 都需要验证机制：

输入验证：题目是否可解？
过程验证：每一步是否合理？
输出验证：视频是否完整？

五、技术实现细节

1. 多模态理解

Tutor Skill 使用 Qwen3.5 的多模态能力：

识别手写或印刷的数学公式
理解图形和图表
将视觉信息转化为结构化数据

2. 逐步生成策略

不是一次性生成整个视频，而是分步生成：

生成讲解大纲
为每个步骤生成动画脚本
生成语音旁白文本
合成动画和语音
添加字幕和过渡效果

这种"分而治之"的策略降低了复杂度，也便于局部调整。

3. 可视化引擎

数学讲解的关键在于可视化。

Tutor Skill 可能使用了：

Manim（3Blue1Brown 使用的数学动画引擎）
或类似的 Python 可视化库
将抽象的数学概念转化为直观的动画

六、应用场景扩展

Tutor Skill 的方法论不仅适用于数学，还可以扩展到：

领域	应用
物理	力学问题可视化讲解
化学	分子结构 3D 展示
编程	算法执行过程动画
语言	语法解析和例句展示
音乐	乐理知识可视化

核心思路是：将抽象知识转化为多模态的、易于理解的形式。

七、对开发者的启示

1. Skill 是新的应用形态

传统的软件应用是"功能导向"的，而 Skill 是"能力导向"的。

应用："这是一个计算器"
Skill："这是一个数学老师"

2. 提示词工程是核心竞争力

在 AI 时代，写好提示词比写好代码更重要。

好的提示词工程师需要：

深入理解业务场景
掌握认知心理学（如何让人理解）
精通语言艺术（如何清晰表达）

3. 多模态是趋势

纯文本的 AI 应用已经不够了。

未来的 AI 应用需要：

理解多模态输入（文本、图像、语音）
生成多模态输出（文本、图像、视频、语音）
在不同模态之间无缝转换

八、如何开始你的第一个 Skill

受 Tutor Skill 启发，如果你想开发自己的 Skill：

找一个具体问题 —— 你或身边的人有什么重复性的、可以用 AI 优化的任务？
拆解任务流程 —— 把任务分解为可自动化的步骤
设计提示词 —— 为每个步骤编写清晰的提示词
建立验证机制 —— 如何知道 Skill 的输出是正确的？
迭代优化 —— 根据实际使用反馈不断改进

九、结语

Tutor Skill 展示了一个趋势：AI 正在从"工具"变成"协作者"。

不是简单地帮我们计算答案，而是帮助我们理解、学习和创造。

这种转变需要新的开发方法论——Skill 开发。

而 xiaotianfotos 的分享，为我们提供了一个很好的起点。

参考

GitHub: https://github.com/xiaotianfotos/skills
视频作者：小天fotos（B站/YouTube）
核心模型：Qwen3.5

你有没有想过用 AI 做一个类似的 Skill？或者你已经尝试过 Skill 开发？欢迎在评论区分享你的想法和经验。

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力