Video Podcast Maker:当你只想给个主题,4K 播客自己长出来
一、先破一个误解
Video Podcast Maker 不是一个独立应用。
没有双击图标,没有安装向导,也没有"导出 MP4"按钮。
它是给编码 Agent 用的技能包。Claude Code 能用,WorkBuddy 能用,Codex、OpenCode 也能用。你给主题,Agent 读它那张 SKILL.md,然后一步步写脚本、合成语音、设计画面、渲染成片。
等于把编码 Agent 变成视频导演。
项目由 Agents365-ai 以 MIT 协议开源,当前 v2.3.0。macOS/Linux 全线跑通,Windows 适配还在路上。
二、15 步全流程,两扇品质门
整个流水线分三阶段。每阶段有明确的进与出,中间卡着两扇门——跨不过去,不许继续。
第一阶段:从一句主题到一份脚本
Agent 上来先问你:想聊什么?
然后进入五连击。
定方向。 受众是谁、什么语调、片子多长——三问敲定。产出 topic_definition.md。
做研究。 搜索资料,提炼关键信息。产出 topic_research.md。
设章节。 Hero 开场 → 核心概念 → 实操演示 → 对比分析 → 总结收尾。默认 5-7 章,按你偏好增减。产出章节结构。
写脚本。 用 [SECTION:xxx] 标记章节边界。产出 podcast.txt——这份脚本就是整部片子的灵魂,后面所有步骤围着它转。
发音预检。 中文专属。多音字怎么读?英文术语怎么念?脚本里可以直接内联标注:执行器[zhí xíng qì]。三层优先级——内联标注最高,项目级词典次之,全局词典兜底。产出 phonemes.json。
第一阶段收工。脚本既定,万事俱备。
第二阶段:从一行代码到一帧画面
搜集素材。 自动模式下跳过。纯动画出片,不依赖外部媒体——省心。
草拟发布信息。 标题、标签、简介先写一版。产出 publish_info.md。
生成缩略图。 16:9 和 4:3 各一张。小红书再加一张 3:4 竖版。
TTS 成音。 这是整条流水线的核心。七个引擎可选:Edge(免费,零配置)、Azure、豆包、CosyVoice、ElevenLabs、OpenAI、Google。默认用 Edge 的 zh-CN-XiaoxiaoNeural——不花一分钱,效果不差。
TTS 脚本会做五件事:解析章节标记 → 加载多音字词典 → 智能分块(按中英文句子边界)→ 调用后端合成 → 校对 WAV 时长与时间轴。产出三件套:podcast_audio.wav + podcast_audio.srt + timing.json。
---
第九步。第一扇门。
Agent 创建 Remotion 组件,启动 Studio。你打开浏览器,看到的是完整的视频预览——颜色、字体、布局、章节过渡,所见即所得。觉得哪里不顺眼,改代码,画面实时刷新。
门规:你不出声,Agent 不动手。 只有你明确说「渲染 4K」,它才进入下一步。
---
第十步,Remotion 以 4K 分辨率渲染完整视频。scale(2) 从 1080p 设计稿放大,产出 output.mp4——纯画面,无背景音乐。
第十一步,FFmpeg 混 BGM。旁白轨道提 3.5dB,背景音乐音量从 user_prefs.json 读取(默认 10%)。产出 video_with_bgm.mp4。
第三阶段:从成品到发布
字幕。 Remotion 在步骤十渲染时已原生嵌入字幕组件 。此步只需拷贝别名 final_video.mp4,无需二次烧录。
补全发布信息。 从 timing.json 自动提取章节时间戳。按平台适配格式——B站要双井号 #话题#,YouTube 要 SEO 描述和 0:00 开头的时间戳,小红书标题限 20 字。输出最终的 publish_info.md。
---
第十四步。第二扇门。
verify_output.py 全量检查:4K 分辨率?h264+aac 编码?音视频同步漂移 <0.5 秒?缩略图尺寸?发布信息章节完整性?exit 0 或 2 放行,exit 1 拦下。自动修复缺 final_video.mp4 等常见遗漏。
---
第十五步可选:从长视频中切出 >20 秒的章节,生成 9:16 竖屏短视频——一条完整的从长到短的内容管线。
三、三层技术地基
Python 脚本层
scripts/ 下是一套完整的 CLI 工具链。统一入口 cli.py,8 个资源、16 个操作方法,输出全部封装为 JSON 信封 {ok, data/error, meta}。Agent 不需要读 stdout 文本,直接解析结构化的 result。
TTS 引擎模块化设计:7 个后端各一个文件,注册表统一路由。加新引擎就是加一个新文件,注册一行。
Remotion 渲染层
这是片子的视觉骨架。
Root.tsx 用 Zod Schema 定义所有可编辑属性,注册多视频模式(16:9 主片 + 9:16 竖屏 + 5 种缩略图 StaticImage)。
Video.tsx 以 TransitionSeries 驱动章节过渡。SectionComponent 用 switch/case 按章节类型分发——hero、overview、content-*、summary、references、outro,六种默认类型。
组件库 24 个文件,全是原生 Remotion 组件:时间线、对比卡、代码块、引语框、特性网格、数据条、计数器、流程图、图标卡、数据表、图表展示、动感文字……对 4K scale(2) 缩放友好,不靠位图撑场面。
FFmpeg 粘合层
音频拼接、BGM 混入、旧版字幕烧录、视频切片——在 Python 脚本和 Remotion 渲染之间,FFmpeg 负责所有音视频的格式转换与合成。
四、你要做的
环境三件套:
Python 3.8+ | Node.js 18+ | FFmpeg 4.0+
然后三步走:
1. 把 skills/video-podcast-maker/ 装进 Agent 的技能列表
2. 说「用 video-podcast-maker 做一个关于 Rust 异步编程的视频」
3. 在步骤 9 的 Studio 预览里点点头,说「渲染 4K」
等 Agent 跑完,去 videos/rust-async/final_video.mp4 拿片子。
如果对 TTS 声音不满意,改 user_prefs.json 里的 tts.backend 和 tts.voices。换引擎也简单:装对应 Python 包,配环境变量,改一行配置。
五、值不值
如果你每周需要一个技术讲解视频——这个项目值得试。
它真正改写的不只是效率,而是把「做视频」这个动作的语义变了。
以前:打开剪辑软件 → 录音 → 对齐字幕 → 找素材 → 调动画 → 渲染 → 压制……每一步都是手动。
现在:给主题 → 在 Studio 里瞅一眼 → 确认。
手工变成声明。
当然,它不是万能的。Windows 适配还在开发计划里,Playwright 自动截图还不支持,AI 封面生成依赖外部工具。但核心链路——从主题到带字幕、带 BGM 的 4K 成品视频——是完整的,可用的,且每天在变好。
---
项目地址:https://github.com/Agents365-ai/video-podcast-maker 开源协议:MIT | 版本:v2.3.0
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens