Video Podcast Maker：当你只想给个主题，4K 播客自己长出来

一、先破一个误解

Video Podcast Maker 不是一个独立应用。

没有双击图标，没有安装向导，也没有"导出 MP4"按钮。

它是给编码 Agent 用的技能包。Claude Code 能用，WorkBuddy 能用，Codex、OpenCode 也能用。你给主题，Agent 读它那张 SKILL.md，然后一步步写脚本、合成语音、设计画面、渲染成片。

等于把编码 Agent 变成视频导演。

项目由 Agents365-ai 以 MIT 协议开源，当前 v2.3.0。macOS/Linux 全线跑通，Windows 适配还在路上。

二、15 步全流程，两扇品质门

整个流水线分三阶段。每阶段有明确的进与出，中间卡着两扇门——跨不过去，不许继续。

第一阶段：从一句主题到一份脚本

Agent 上来先问你：想聊什么？

然后进入五连击。

定方向。 受众是谁、什么语调、片子多长——三问敲定。产出 topic_definition.md。

做研究。 搜索资料，提炼关键信息。产出 topic_research.md。

设章节。 Hero 开场 → 核心概念 → 实操演示 → 对比分析 → 总结收尾。默认 5-7 章，按你偏好增减。产出章节结构。

写脚本。 用 [SECTION:xxx] 标记章节边界。产出 podcast.txt——这份脚本就是整部片子的灵魂，后面所有步骤围着它转。

发音预检。 中文专属。多音字怎么读？英文术语怎么念？脚本里可以直接内联标注：执行器[zhí xíng qì]。三层优先级——内联标注最高，项目级词典次之，全局词典兜底。产出 phonemes.json。

第一阶段收工。脚本既定，万事俱备。

第二阶段：从一行代码到一帧画面

搜集素材。 自动模式下跳过。纯动画出片，不依赖外部媒体——省心。

草拟发布信息。 标题、标签、简介先写一版。产出 publish_info.md。

生成缩略图。 16:9 和 4:3 各一张。小红书再加一张 3:4 竖版。

TTS 成音。 这是整条流水线的核心。七个引擎可选：Edge（免费，零配置）、Azure、豆包、CosyVoice、ElevenLabs、OpenAI、Google。默认用 Edge 的 zh-CN-XiaoxiaoNeural——不花一分钱，效果不差。

TTS 脚本会做五件事：解析章节标记 → 加载多音字词典 → 智能分块（按中英文句子边界）→ 调用后端合成 → 校对 WAV 时长与时间轴。产出三件套：podcast_audio.wav + podcast_audio.srt + timing.json。

---

第九步。第一扇门。

Agent 创建 Remotion 组件，启动 Studio。你打开浏览器，看到的是完整的视频预览——颜色、字体、布局、章节过渡，所见即所得。觉得哪里不顺眼，改代码，画面实时刷新。

门规：你不出声，Agent 不动手。 只有你明确说「渲染 4K」，它才进入下一步。

---

第十步，Remotion 以 4K 分辨率渲染完整视频。scale(2) 从 1080p 设计稿放大，产出 output.mp4——纯画面，无背景音乐。

第十一步，FFmpeg 混 BGM。旁白轨道提 3.5dB，背景音乐音量从 user_prefs.json 读取（默认 10%）。产出 video_with_bgm.mp4。

第三阶段：从成品到发布

字幕。 Remotion 在步骤十渲染时已原生嵌入字幕组件。此步只需拷贝别名 final_video.mp4，无需二次烧录。

补全发布信息。 从 timing.json 自动提取章节时间戳。按平台适配格式——B站要双井号 #话题#，YouTube 要 SEO 描述和 0:00 开头的时间戳，小红书标题限 20 字。输出最终的 publish_info.md。

---

第十四步。第二扇门。

verify_output.py 全量检查：4K 分辨率？h264+aac 编码？音视频同步漂移 <0.5 秒？缩略图尺寸？发布信息章节完整性？exit 0 或 2 放行，exit 1 拦下。自动修复缺 final_video.mp4 等常见遗漏。

---

第十五步可选：从长视频中切出 >20 秒的章节，生成 9:16 竖屏短视频——一条完整的从长到短的内容管线。

三、三层技术地基

Python 脚本层

scripts/ 下是一套完整的 CLI 工具链。统一入口 cli.py，8 个资源、16 个操作方法，输出全部封装为 JSON 信封 {ok, data/error, meta}。Agent 不需要读 stdout 文本，直接解析结构化的 result。

TTS 引擎模块化设计：7 个后端各一个文件，注册表统一路由。加新引擎就是加一个新文件，注册一行。

Remotion 渲染层

这是片子的视觉骨架。

Root.tsx 用 Zod Schema 定义所有可编辑属性，注册多视频模式（16:9 主片 + 9:16 竖屏 + 5 种缩略图 StaticImage）。

Video.tsx 以 TransitionSeries 驱动章节过渡。SectionComponent 用 switch/case 按章节类型分发——hero、overview、content-*、summary、references、outro，六种默认类型。

组件库 24 个文件，全是原生 Remotion 组件：时间线、对比卡、代码块、引语框、特性网格、数据条、计数器、流程图、图标卡、数据表、图表展示、动感文字……对 4K scale(2) 缩放友好，不靠位图撑场面。

FFmpeg 粘合层

音频拼接、BGM 混入、旧版字幕烧录、视频切片——在 Python 脚本和 Remotion 渲染之间，FFmpeg 负责所有音视频的格式转换与合成。

四、你要做的

环境三件套：

Python 3.8+ | Node.js 18+ | FFmpeg 4.0+

然后三步走：

1. 把 skills/video-podcast-maker/ 装进 Agent 的技能列表 2. 说「用 video-podcast-maker 做一个关于 Rust 异步编程的视频」 3. 在步骤 9 的 Studio 预览里点点头，说「渲染 4K」

等 Agent 跑完，去 videos/rust-async/final_video.mp4 拿片子。

如果对 TTS 声音不满意，改 user_prefs.json 里的 tts.backend 和 tts.voices。换引擎也简单：装对应 Python 包，配环境变量，改一行配置。

五、值不值

如果你每周需要一个技术讲解视频——这个项目值得试。

它真正改写的不只是效率，而是把「做视频」这个动作的语义变了。

以前：打开剪辑软件 → 录音 → 对齐字幕 → 找素材 → 调动画 → 渲染 → 压制……每一步都是手动。

现在：给主题 → 在 Studio 里瞅一眼 → 确认。

手工变成声明。

当然，它不是万能的。Windows 适配还在开发计划里，Playwright 自动截图还不支持，AI 封面生成依赖外部工具。但核心链路——从主题到带字幕、带 BGM 的 4K 成品视频——是完整的，可用的，且每天在变好。

---

项目地址：https://github.com/Agents365-ai/video-podcast-maker 开源协议：MIT | 版本：v2.3.0