## 一、一个有趣的 Skill 项目
最近在 GitHub 上发现了一个有趣的项目:**xiaotianfotos/skills**,其中的 **Tutor Skill** 展示了一种全新的 AI 应用思路。
这个项目来自 B 站/YouTube UP 主"小天fotos",他用 Qwen3.5 做了一个 Tutor Skill,实现了一键将数学题转换为讲解视频。
但这篇文章想聊的不仅是这个 Skill 本身,而是它背后的方法论。
## 二、Tutor Skill 是什么?
简单来说,Tutor Skill 是一个**自动化的教学视频生成工具**。
**输入:** 一道数学题(文字或图片)
**输出:** 完整的讲解视频,包括:
- 逐步解题过程
- 可视化动画
- 语音讲解
- 字幕
听起来很酷,对吧?但更重要的是——它是如何实现的。
## 三、Skill 架构解析
### 1. 分层设计
Tutor Skill 采用了清晰的分层架构:
```
输入层 → 理解层 → 规划层 → 生成层 → 输出层
```
| 层级 | 功能 | 技术 |
|------|------|------|
| **输入层** | 接收题目 | OCR / 文本解析 |
| **理解层** | 理解题意、识别知识点 | Qwen3.5 推理 |
| **规划层** | 设计讲解步骤 | 提示词工程 |
| **生成层** | 生成动画、语音 | 多模态模型 |
| **输出层** | 合成视频 | 视频渲染 |
### 2. 核心创新:教学思维链
Tutor Skill 的关键不在于技术堆砌,而在于**教学思维的编码**。
它不是简单地"算出答案",而是模拟一个好老师的思考过程:
1. **审题** —— 理解题目在问什么
2. **定位** —— 识别涉及的知识点
3. **拆解** —— 将复杂问题分解为小步骤
4. **讲解** —— 每个步骤用通俗语言解释
5. **总结** —— 回顾关键点和易错点
这种"思维链"被编码在 Skill 的提示词中,让 AI 不只是计算,而是**教学**。
## 四、方法论:从 Skill 到通用框架
小天fotos 在视频中分享的不仅是 Tutor Skill,更是一套**可复用的 Skill 开发方法论**。
### 1. 问题驱动
不要从技术出发,而是从**真实问题**出发。
Tutor Skill 的起点是:"学生看文字解析总是看不懂,如果能有一个自动生成的视频讲解就好了。"
### 2. 分层抽象
将复杂任务分解为可管理的层次:
- 每层只关注一个抽象级别
- 层与层之间通过清晰接口交互
- 便于调试和迭代
### 3. 提示词即代码
在 Skill 开发中,提示词就是核心代码。
好的提示词需要:
- 明确的角色定义("你是一位经验丰富的数学老师")
- 清晰的输入输出格式
- 示例(few-shot)引导
- 约束条件("每一步都要解释为什么")
### 4. 验证闭环
每个 Skill 都需要验证机制:
- 输入验证:题目是否可解?
- 过程验证:每一步是否合理?
- 输出验证:视频是否完整?
## 五、技术实现细节
### 1. 多模态理解
Tutor Skill 使用 Qwen3.5 的多模态能力:
- 识别手写或印刷的数学公式
- 理解图形和图表
- 将视觉信息转化为结构化数据
### 2. 逐步生成策略
不是一次性生成整个视频,而是分步生成:
1. 生成讲解大纲
2. 为每个步骤生成动画脚本
3. 生成语音旁白文本
4. 合成动画和语音
5. 添加字幕和过渡效果
这种"分而治之"的策略降低了复杂度,也便于局部调整。
### 3. 可视化引擎
数学讲解的关键在于可视化。
Tutor Skill 可能使用了:
- Manim(3Blue1Brown 使用的数学动画引擎)
- 或类似的 Python 可视化库
- 将抽象的数学概念转化为直观的动画
## 六、应用场景扩展
Tutor Skill 的方法论不仅适用于数学,还可以扩展到:
| 领域 | 应用 |
|------|------|
| **物理** | 力学问题可视化讲解 |
| **化学** | 分子结构 3D 展示 |
| **编程** | 算法执行过程动画 |
| **语言** | 语法解析和例句展示 |
| **音乐** | 乐理知识可视化 |
核心思路是:**将抽象知识转化为多模态的、易于理解的形式**。
## 七、对开发者的启示
### 1. Skill 是新的应用形态
传统的软件应用是"功能导向"的,而 Skill 是"能力导向"的。
- 应用:"这是一个计算器"
- Skill:"这是一个数学老师"
### 2. 提示词工程是核心竞争力
在 AI 时代,写好提示词比写好代码更重要。
好的提示词工程师需要:
- 深入理解业务场景
- 掌握认知心理学(如何让人理解)
- 精通语言艺术(如何清晰表达)
### 3. 多模态是趋势
纯文本的 AI 应用已经不够了。
未来的 AI 应用需要:
- 理解多模态输入(文本、图像、语音)
- 生成多模态输出(文本、图像、视频、语音)
- 在不同模态之间无缝转换
## 八、如何开始你的第一个 Skill
受 Tutor Skill 启发,如果你想开发自己的 Skill:
1. **找一个具体问题** —— 你或身边的人有什么重复性的、可以用 AI 优化的任务?
2. **拆解任务流程** —— 把任务分解为可自动化的步骤
3. **设计提示词** —— 为每个步骤编写清晰的提示词
4. **建立验证机制** —— 如何知道 Skill 的输出是正确的?
5. **迭代优化** —— 根据实际使用反馈不断改进
## 九、结语
Tutor Skill 展示了一个趋势:**AI 正在从"工具"变成"协作者"**。
不是简单地帮我们计算答案,而是帮助我们理解、学习和创造。
这种转变需要新的开发方法论——Skill 开发。
而 xiaotianfotos 的分享,为我们提供了一个很好的起点。
---
## 参考
- GitHub: https://github.com/xiaotianfotos/skills
- 视频作者:小天fotos(B站/YouTube)
- 核心模型:Qwen3.5
---
*你有没有想过用 AI 做一个类似的 Skill?或者你已经尝试过 Skill 开发?欢迎在评论区分享你的想法和经验。*
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!