做视频播客,最难的不是剪辑软件,而是"从选题到成片"之间那几十个决策点。找素材、写脚本、调语气、配画面、加字幕、选BGM、做封面、写标题、想标签——每一步都能卡住。
Agents365-ai 的 video-podcast-maker 把整条链路塞进一个 SKILL.md,用 Claude Code 当导演,Remotion 当摄影棚,7 个 TTS 引擎当配音演员。你只管说"我想做一个关于某某的视频",剩下的 agent 全包。
这不是"视频工具",是"视频工厂"。
一、一条命令,从主题到成片
整个工作流被封装成 SKILL.md 的 14 个步骤:
主题定义 → 网络研究 → 脚本撰写 → 发音校正 → TTS 朗读 → 时间轴同步 →
Remotion 视频渲染 → BGM 叠加 → 字幕烧录 → 封面生成 → 多平台发布信息
对用户的接口只有一句话:
"帮我制作一个关于 [你的主题] 的视频播客"
Claude Code / Codex / OpenCode / OpenClaw 读取 SKILL.md 后,自动引导你走完每一步。每个步骤的产出物都是下一个步骤的输入,pipeline 是自闭环的。
文件结构:一个项目一个目录
videos/{视频名称}/
├── topic_definition.md # 主题定义(你一句话,agent 扩展)
├── topic_research.md # 网络研究笔记(自动搜索收集)
├── podcast.txt # 旁白脚本(核心,决定一切)
├── phonemes.json # 多音字发音词典(行 háng vs xíng)
├── podcast_audio.wav # TTS 音频
├── podcast_audio.srt # 字幕文件
├── timing.json # 章节时间轴(自动同步音画)
├── thumbnail_*.png # 封面(AI 生成或 Remotion 渲染)
├── publish_info.md # 各平台标题/标签/简介
└── final_video.mp4 # 最终输出(4K,3840×2160)
二、7 个 TTS 引擎:从免费到顶级
配音是视频播客的魂。不同平台、不同语种、不同预算,需要不同的声音:
| 引擎 | 成本 | 质量 | 适用场景 |
|---|---|---|---|
| Edge TTS | 免费 | 中等 | 快速测试、预算敏感 |
| Azure Speech | 按量 | 高 | 中文主力,支持中英混读 |
| 火山引擎豆包 | 按量 | 高 | 中文备选,音色丰富 |
| 阿里云 CosyVoice | 按量 | 高 | 中文,情感表达强 |
| ElevenLabs | 按量 | 最高 | 英文,几乎以假乱真 |
| Google Cloud TTS | 按量 | 高 | 语言支持最广 |
| OpenAI TTS | 按量 | 高 | API 简洁,集成快 |
环境变量切换:
export TTS_BACKEND="edge" # 或 azure / doubao / cosyvoice / elevenlabs / google / openai
一个细节:中英混读。Azure Speech 原生支持中英文混合旁白,对 B 站这种"中文里突然冒出英文术语"的口播场景特别友好。TTS 不会把 "Python" 念成 "皮松",而是标准英文发音。
另一个细节:多音字校正。全局 phonemes.json + 项目级覆盖,行 háng 和 行 xíng 不会搞混。对中文科技口播("一行代码" vs "银行系统")是刚需。
三、Remotion:React 写视频,代码即动画
video-podcast-maker 的底层渲染引擎是 Remotion——用 React 组件写视频,代码编译成帧序列,最终合成 MP4。
这意味着:
- 布局是 JSX:文字位置、颜色、字体大小,全是代码
- 动画是 CSS:keyframes、transition、transform
- 组件可复用:ComparisonCard、Timeline、CodeBlock、QuoteBlock、FeatureGrid、DataBar、StatCounter、FlowChart、IconCard——全是预制模板
- 4K 输出:3840×2160,不是 1080p 放大,是原生 4K 渲染
实时预览:不用等渲染
npx remotion studio
打开浏览器编辑器,右侧面板调颜色/字体/尺寸,时间轴拖动逐帧查看,编辑组件实时更新。渲染前就能看到成片效果,改完再导出,不浪费 GPU 时间。
章节进度条:B 站标配
[SECTION:标题] 标记在脚本里,自动转成可视化进度条——当前播到哪一章、总时长多少、这一章还剩几秒,实时显示。B 站用户熟悉的"分段导航",不用后期手动加。
四、平台差异化:不是"一个视频发五个平台"
真正专业的视频运营,不是"横屏视频直接发抖音"。video-podcast-maker 给每个平台做了独立适配:
B 站(横屏 16:9)
- 脚本结构:欢迎开场 + 一键三连片尾引导(自动插入)
- 章节时间戳:MM:SS 格式,生成后复制到 B 站投稿页
- 封面:16:9 + 4:3 双版本(AI 生成或 Remotion 渲染)
- 视觉风格:大字饱满、极少留白、信息密度高(B 站用户习惯)
- 发布信息:标题公式(悬念+关键词+数字)、标签策略、简介模板
YouTube(横屏 16:9)
- SEO 优化:标题关键词前置、描述带时间戳链接、章节标记
- 订阅引导:动画 CTA(自动)
小红书(竖屏 3:4)
- 标题:≤20 字,emoji 可用
- 正文:200-500 字,种草/知识分享风格,emoji 友好
- 话题标签:#话题# 双井号格式,5-10 个
- 封面:3:4(1080×1440),适配信息流
- CTA:"点赞收藏加关注" 文字动画
抖音(竖屏 9:16)
- 格式:仅竖屏精华片段(不生成横屏长视频)
- 文案:100-200 字,口语化,#话题 单井号格式
- CTA:"点赞关注" 纯文字
微信视频号(竖屏 9:16)
- 格式:竖屏精华片段,适合转发
- 文案:100-300 字,知识分享风格
- CTA:"点赞关注,转发给朋友"
关键洞察:同一个主题,不同平台生成不同版本。不是简单裁剪,是脚本重写、风格重调、CTA 重配。B 站完整版 10 分钟,抖音精华版 1 分钟——同一个内容资产,五份产出。
五、脚本撰写:AI 写初稿,人做终审
video-podcast-maker 对脚本的态度很诚实:"AI 生成的初稿只是起点。"
SKILL.md 明确要求用户亲自做三件事:
- 默读改口播节奏:每句话当成一口气说完,哪里换气换不过来、哪里要回头重读,立刻改
- 至少改三遍:第一遍抓错别字,第二遍砍废话,第三遍调节奏(断句、停顿、长句切短)
- 数字/专有名词/英文术语单独审:TTS 念错的 90% 集中在这里,读音不对的加
phonemes.json
校验标准:"脑子里走完一遍,没有任何一句让你皱眉。"
这个设计很聪明。它没假装 AI 能写出完美口播脚本,而是把"技术执行"交给 agent,把"内容判断"留给人类。脚本行,4K 渲出来才行;脚本不行,4K 渲出来的也是垃圾。
六、用户偏好学习:越用越懂你的风格
video-podcast-maker 有一个隐藏亮点:自动学习用户风格偏好。
第一次用的时候,你在 Remotion Studio 里调了颜色、字号、语速。这些选择被记录到 user_prefs.json。下一次做视频,agent 自动应用这些偏好——你不需要每次都重新调。
更进一步的规划(Phase 4-5):
- 设计参考库:从参考视频/图片学习设计风格,构建风格档案
- Playwright 自动抓取:输入 B 站/YouTube URL,自动分析目标视频的视觉风格
- 智能推荐:制作视频时自动匹配已有风格档案
这意味着:你做完 10 个视频后,agent 知道"你的 B 站视频喜欢深色背景+橙色强调+思源黑体",新视频直接套用——品牌一致性自动维护。
七、技术架构:为什么选这些工具
| 层级 | 工具 | 选择理由 |
|---|---|---|
| 工作流编排 | SKILL.md + Claude Code | 自然语言驱动,无需编程 |
| 视频渲染 | Remotion (React) | 代码即动画,组件复用,4K 原生 |
| 音频合成 | TTS 引擎 + FFmpeg | 多后端选择,BGM 叠加,字幕烧录 |
| 封面生成 | AI (Imagen/Qwen) / Remotion | 16:9+4:3 双版本,适配多平台 |
| 开发环境 | Remotion Studio | 实时预览,可视化编辑 |
| 部署 | Docker / 本地 Node | 可控,无需云服务依赖 |
整个 pipeline 的依赖很克制:Python 3.8+、Node.js 18+、FFmpeg 4.0+。没有复杂的云服务绑定,TTS 默认用免费的 Edge TTS,零成本启动。
八、局限与边界
第一,Remotion 的学习曲线。 虽然用户不需要写代码,但如果要在 Remotion Studio 里深度定制视觉风格,还是需要理解 React 组件和 CSS 动画。对纯内容创作者来说,这一步可能卡住。
第二,TTS 的"人味"天花板。 再好的 TTS 也是 TTS,没有真人主播的情绪波动、即兴发挥、口头禅。对"个人 IP"类播客,真人配音还是不可替代。
第三,AI 封面质量不稳定。 Imagen/Qwen 生成的封面有时"AI 感"太重,需要人工筛选或二次调整。品牌向的视频不能依赖纯 AI 封面。
第四,多平台发布仍是半自动。 视频文件和发布信息生成了,但上传到 B 站/YouTube/抖音仍需手动操作(YouTube Data API 自动化在 Roadmap 里)。
第五,Windows 支持还在验证。 主要在 macOS 测试,Linux 兼容,WSL 支持待验证。
九、一个判断:内容生产的"流水线化"
video-podcast-maker 代表了一个重要趋势:个人创作者的内容生产正在从"手工作坊"转向"流水线"。
以前做一个 10 分钟的 B 站视频:选题 2 小时、写脚本 4 小时、录配音 1 小时、找素材 3 小时、剪辑 4 小时、做封面 1 小时、写简介 30 分钟——总计 15+ 小时。
现在:主题一句话 → agent 研究 → AI 写脚本 → 你改 30 分钟 → TTS 生成 → Remotion 渲染 → 封面自动生成 → 发布信息自动配。人只做"创意决策"和"内容终审",技术执行全部自动化。
时间从 15 小时压缩到 2-3 小时。更关键的是:认知负担从"怎么剪辑"变成"说什么"。
这对自媒体行业的冲击是结构性的。当一个人的产出效率提升 5-10 倍,内容市场的竞争会从"谁更勤奋"变成"谁更有洞察"。技术门槛消失后,内容质量的差距会更明显。
十、一句话总结
video-podcast-maker 是一个用 Claude Code 当导演的视频工厂。从主题研究到 4K 成片,14 步自动化流水线,7 个 TTS 引擎任挑,Remotion 实时预览,五平台差异化适配(B 站/YouTube/小红书/抖音/微信视频号),用户偏好自动学习。脚本由 AI 写初稿、人做终审,技术执行全包,人只做创意决策。零成本启动(Edge TTS 免费),macOS 已验证,Linux 兼容。
如果你做 B 站知识区、YouTube 科普、小红书种草——这套工作流能把你的产出效率提升一个量级。
项目信息
- GitHub: https://github.com/Agents365-ai/video-podcast-maker
- 中文 README: https://github.com/Agents365-ai/video-podcast-maker/blob/main/README_CN.md
- 技能市场: https://github.com/Agents365-ai/365-skills
- 作者: Agents365-ai
- B 站: https://space.bilibili.com/441831884
- Discord: https://discord.gg/79JF5Atuk
- 支持 Agent: Claude Code, Codex, OpenCode, OpenClaw (ClawHub)
- 许可证: MIT
#VideoPodcastMaker #Agents365 #ClaudeCode #Remotion #TTS #B站 #YouTube #内容自动化 #SKILLmd
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。