一句话生成视频播客：Agents365-ai 用 Claude Code 当导演，14步流水线包办一切

做视频播客，最难的不是剪辑软件，而是"从选题到成片"之间那几十个决策点。找素材、写脚本、调语气、配画面、加字幕、选BGM、做封面、写标题、想标签——每一步都能卡住。

Agents365-ai 的 video-podcast-maker 把整条链路塞进一个 SKILL.md，用 Claude Code 当导演，Remotion 当摄影棚，7 个 TTS 引擎当配音演员。你只管说"我想做一个关于某某的视频"，剩下的 agent 全包。

这不是"视频工具"，是"视频工厂"。

---

一、一条命令，从主题到成片

整个工作流被封装成 SKILL.md 的 14 个步骤：

主题定义 → 网络研究 → 脚本撰写 → 发音校正 → TTS 朗读 → 时间轴同步 → 
Remotion 视频渲染 → BGM 叠加 → 字幕烧录 → 封面生成 → 多平台发布信息

对用户的接口只有一句话：

> "帮我制作一个关于 [你的主题] 的视频播客"

Claude Code / Codex / OpenCode / OpenClaw 读取 SKILL.md 后，自动引导你走完每一步。每个步骤的产出物都是下一个步骤的输入，pipeline 是自闭环的。

文件结构：一个项目一个目录

videos/{视频名称}/
├── topic_definition.md      # 主题定义（你一句话，agent 扩展）
├── topic_research.md        # 网络研究笔记（自动搜索收集）
├── podcast.txt              # 旁白脚本（核心，决定一切）
├── phonemes.json            # 多音字发音词典（行 háng vs xíng）
├── podcast_audio.wav        # TTS 音频
├── podcast_audio.srt        # 字幕文件
├── timing.json              # 章节时间轴（自动同步音画）
├── thumbnail_*.png          # 封面（AI 生成或 Remotion 渲染）
├── publish_info.md          # 各平台标题/标签/简介
└── final_video.mp4          # 最终输出（4K，3840×2160）

---

二、7 个 TTS 引擎：从免费到顶级

配音是视频播客的魂。不同平台、不同语种、不同预算，需要不同的声音：

引擎	成本	质量	适用场景
Edge TTS	免费	中等	快速测试、预算敏感
Azure Speech	按量	高	中文主力，支持中英混读
火山引擎豆包	按量	高	中文备选，音色丰富
阿里云 CosyVoice	按量	高	中文，情感表达强
ElevenLabs	按量	最高	英文，几乎以假乱真
Google Cloud TTS	按量	高	语言支持最广
OpenAI TTS	按量	高	API 简洁，集成快

环境变量切换：

export TTS_BACKEND="edge"  # 或 azure / doubao / cosyvoice / elevenlabs / google / openai

一个细节：中英混读。Azure Speech 原生支持中英文混合旁白，对 B 站这种"中文里突然冒出英文术语"的口播场景特别友好。TTS 不会把 "Python" 念成 "皮松"，而是标准英文发音。

另一个细节：多音字校正。全局 phonemes.json + 项目级覆盖，行 háng 和 行 xíng 不会搞混。对中文科技口播（"一行代码" vs "银行系统"）是刚需。

---

三、Remotion：React 写视频，代码即动画

video-podcast-maker 的底层渲染引擎是 Remotion——用 React 组件写视频，代码编译成帧序列，最终合成 MP4。

这意味着：

布局是 JSX：文字位置、颜色、字体大小，全是代码
动画是 CSS：keyframes、transition、transform
组件可复用：ComparisonCard、Timeline、CodeBlock、QuoteBlock、FeatureGrid、DataBar、StatCounter、FlowChart、IconCard——全是预制模板
4K 输出：3840×2160，不是 1080p 放大，是原生 4K 渲染

实时预览：不用等渲染

npx remotion studio

打开浏览器编辑器，右侧面板调颜色/字体/尺寸，时间轴拖动逐帧查看，编辑组件实时更新。渲染前就能看到成片效果，改完再导出，不浪费 GPU 时间。

章节进度条：B 站标配

[SECTION:标题] 标记在脚本里，自动转成可视化进度条——当前播到哪一章、总时长多少、这一章还剩几秒，实时显示。B 站用户熟悉的"分段导航"，不用后期手动加。

---

四、平台差异化：不是"一个视频发五个平台"

真正专业的视频运营，不是"横屏视频直接发抖音"。video-podcast-maker 给每个平台做了独立适配：

B 站（横屏 16:9）

脚本结构：欢迎开场 + 一键三连片尾引导（自动插入）
章节时间戳：MM:SS 格式，生成后复制到 B 站投稿页
封面：16:9 + 4:3 双版本（AI 生成或 Remotion 渲染）
视觉风格：大字饱满、极少留白、信息密度高（B 站用户习惯）
发布信息：标题公式（悬念+关键词+数字）、标签策略、简介模板

YouTube（横屏 16:9）

SEO 优化：标题关键词前置、描述带时间戳链接、章节标记
订阅引导：动画 CTA（自动）

小红书（竖屏 3:4）

标题：≤20 字，emoji 可用
正文：200-500 字，种草/知识分享风格，emoji 友好
话题标签：#话题# 双井号格式，5-10 个
封面：3:4（1080×1440），适配信息流
CTA："点赞收藏加关注" 文字动画

抖音（竖屏 9:16）

格式：仅竖屏精华片段（不生成横屏长视频）
文案：100-200 字，口语化，#话题单井号格式
CTA："点赞关注" 纯文字

微信视频号（竖屏 9:16）

格式：竖屏精华片段，适合转发
文案：100-300 字，知识分享风格
CTA："点赞关注，转发给朋友"

关键洞察：同一个主题，不同平台生成不同版本。不是简单裁剪，是脚本重写、风格重调、CTA 重配。B 站完整版 10 分钟，抖音精华版 1 分钟——同一个内容资产，五份产出。

---

五、脚本撰写：AI 写初稿，人做终审

video-podcast-maker 对脚本的态度很诚实："AI 生成的初稿只是起点。"

SKILL.md 明确要求用户亲自做三件事：

1. 默读改口播节奏：每句话当成一口气说完，哪里换气换不过来、哪里要回头重读，立刻改 2. 至少改三遍：第一遍抓错别字，第二遍砍废话，第三遍调节奏（断句、停顿、长句切短） 3. 数字/专有名词/英文术语单独审：TTS 念错的 90% 集中在这里，读音不对的加 phonemes.json

校验标准："脑子里走完一遍，没有任何一句让你皱眉。"

这个设计很聪明。它没假装 AI 能写出完美口播脚本，而是把"技术执行"交给 agent，把"内容判断"留给人类。脚本行，4K 渲出来才行；脚本不行，4K 渲出来的也是垃圾。

---

六、用户偏好学习：越用越懂你的风格

video-podcast-maker 有一个隐藏亮点：自动学习用户风格偏好。

第一次用的时候，你在 Remotion Studio 里调了颜色、字号、语速。这些选择被记录到 user_prefs.json。下一次做视频，agent 自动应用这些偏好——你不需要每次都重新调。

更进一步的规划（Phase 4-5）：

设计参考库：从参考视频/图片学习设计风格，构建风格档案
Playwright 自动抓取：输入 B 站/YouTube URL，自动分析目标视频的视觉风格
智能推荐：制作视频时自动匹配已有风格档案

这意味着：你做完 10 个视频后，agent 知道"你的 B 站视频喜欢深色背景+橙色强调+思源黑体"，新视频直接套用——品牌一致性自动维护。

---

七、技术架构：为什么选这些工具

层级	工具	选择理由
工作流编排	SKILL.md + Claude Code	自然语言驱动，无需编程
视频渲染	Remotion (React)	代码即动画，组件复用，4K 原生
音频合成	TTS 引擎 + FFmpeg	多后端选择，BGM 叠加，字幕烧录
封面生成	AI (Imagen/Qwen) / Remotion	16:9+4:3 双版本，适配多平台
开发环境	Remotion Studio	实时预览，可视化编辑
部署	Docker / 本地 Node	可控，无需云服务依赖

整个 pipeline 的依赖很克制：Python 3.8+、Node.js 18+、FFmpeg 4.0+。没有复杂的云服务绑定，TTS 默认用免费的 Edge TTS，零成本启动。

---

八、局限与边界

第一，Remotion 的学习曲线。 虽然用户不需要写代码，但如果要在 Remotion Studio 里深度定制视觉风格，还是需要理解 React 组件和 CSS 动画。对纯内容创作者来说，这一步可能卡住。

第二，TTS 的"人味"天花板。 再好的 TTS 也是 TTS，没有真人主播的情绪波动、即兴发挥、口头禅。对"个人 IP"类播客，真人配音还是不可替代。

第三，AI 封面质量不稳定。 Imagen/Qwen 生成的封面有时"AI 感"太重，需要人工筛选或二次调整。品牌向的视频不能依赖纯 AI 封面。

第四，多平台发布仍是半自动。 视频文件和发布信息生成了，但上传到 B 站/YouTube/抖音仍需手动操作（YouTube Data API 自动化在 Roadmap 里）。

第五，Windows 支持还在验证。 主要在 macOS 测试，Linux 兼容，WSL 支持待验证。

---

九、一个判断：内容生产的"流水线化"

video-podcast-maker 代表了一个重要趋势：个人创作者的内容生产正在从"手工作坊"转向"流水线"。

以前做一个 10 分钟的 B 站视频：选题 2 小时、写脚本 4 小时、录配音 1 小时、找素材 3 小时、剪辑 4 小时、做封面 1 小时、写简介 30 分钟——总计 15+ 小时。

现在：主题一句话 → agent 研究 → AI 写脚本 → 你改 30 分钟 → TTS 生成 → Remotion 渲染 → 封面自动生成 → 发布信息自动配。人只做"创意决策"和"内容终审"，技术执行全部自动化。

时间从 15 小时压缩到 2-3 小时。更关键的是：认知负担从"怎么剪辑"变成"说什么"。

这对自媒体行业的冲击是结构性的。当一个人的产出效率提升 5-10 倍，内容市场的竞争会从"谁更勤奋"变成"谁更有洞察"。技术门槛消失后，内容质量的差距会更明显。

---

十、一句话总结

video-podcast-maker 是一个用 Claude Code 当导演的视频工厂。从主题研究到 4K 成片，14 步自动化流水线，7 个 TTS 引擎任挑，Remotion 实时预览，五平台差异化适配（B 站/YouTube/小红书/抖音/微信视频号），用户偏好自动学习。脚本由 AI 写初稿、人做终审，技术执行全包，人只做创意决策。零成本启动（Edge TTS 免费），macOS 已验证，Linux 兼容。

如果你做 B 站知识区、YouTube 科普、小红书种草——这套工作流能把你的产出效率提升一个量级。

---

项目信息

GitHub: https://github.com/Agents365-ai/video-podcast-maker
中文 README: https://github.com/Agents365-ai/video-podcast-maker/blob/main/README_CN.md
技能市场: https://github.com/Agents365-ai/365-skills
作者: Agents365-ai
B 站: https://space.bilibili.com/441831884
Discord: https://discord.gg/79JF5Atuk
支持 Agent: Claude Code, Codex, OpenCode, OpenClaw (ClawHub)
许可证: MIT

#VideoPodcastMaker #Agents365 #ClaudeCode #Remotion #TTS #B站 #YouTube #内容自动化 #SKILLmd