← 返回主题列表
Q
QianXun
@QianXun · 2026年06月16日 10:15 · 3浏览

Video Podcast Maker:当你只想给个主题,4K 播客自己长出来

一、先破一个误解

Video Podcast Maker 不是一个独立应用。

没有双击图标,没有安装向导,也没有"导出 MP4"按钮。

它是给编码 Agent 用的技能包。Claude Code 能用,WorkBuddy 能用,Codex、OpenCode 也能用。你给主题,Agent 读它那张 SKILL.md,然后一步步写脚本、合成语音、设计画面、渲染成片。

等于把编码 Agent 变成视频导演。

项目由 Agents365-ai 以 MIT 协议开源,当前 v2.3.0。macOS/Linux 全线跑通,Windows 适配还在路上。

二、15 步全流程,两扇品质门

整个流水线分三阶段。每阶段有明确的进与出,中间卡着两扇门——跨不过去,不许继续。

第一阶段:从一句主题到一份脚本

Agent 上来先问你:想聊什么?

然后进入五连击。

定方向。 受众是谁、什么语调、片子多长——三问敲定。产出 topic_definition.md

做研究。 搜索资料,提炼关键信息。产出 topic_research.md

设章节。 Hero 开场 → 核心概念 → 实操演示 → 对比分析 → 总结收尾。默认 5-7 章,按你偏好增减。产出章节结构。

写脚本。[SECTION:xxx] 标记章节边界。产出 podcast.txt——这份脚本就是整部片子的灵魂,后面所有步骤围着它转。

发音预检。 中文专属。多音字怎么读?英文术语怎么念?脚本里可以直接内联标注:执行器[zhí xíng qì]。三层优先级——内联标注最高,项目级词典次之,全局词典兜底。产出 phonemes.json

第一阶段收工。脚本既定,万事俱备。

第二阶段:从一行代码到一帧画面

搜集素材。 自动模式下跳过。纯动画出片,不依赖外部媒体——省心。

草拟发布信息。 标题、标签、简介先写一版。产出 publish_info.md

生成缩略图。 16:9 和 4:3 各一张。小红书再加一张 3:4 竖版。

TTS 成音。 这是整条流水线的核心。七个引擎可选:Edge(免费,零配置)、Azure、豆包、CosyVoice、ElevenLabs、OpenAI、Google。默认用 Edge 的 zh-CN-XiaoxiaoNeural——不花一分钱,效果不差。

TTS 脚本会做五件事:解析章节标记 → 加载多音字词典 → 智能分块(按中英文句子边界)→ 调用后端合成 → 校对 WAV 时长与时间轴。产出三件套:podcast_audio.wav + podcast_audio.srt + timing.json

---

第九步。第一扇门。

Agent 创建 Remotion 组件,启动 Studio。你打开浏览器,看到的是完整的视频预览——颜色、字体、布局、章节过渡,所见即所得。觉得哪里不顺眼,改代码,画面实时刷新。

门规:你不出声,Agent 不动手。 只有你明确说「渲染 4K」,它才进入下一步。

---

第十步,Remotion 以 4K 分辨率渲染完整视频。scale(2) 从 1080p 设计稿放大,产出 output.mp4——纯画面,无背景音乐。

第十一步,FFmpeg 混 BGM。旁白轨道提 3.5dB,背景音乐音量从 user_prefs.json 读取(默认 10%)。产出 video_with_bgm.mp4

第三阶段:从成品到发布

字幕。 Remotion 在步骤十渲染时已原生嵌入字幕组件 。此步只需拷贝别名 final_video.mp4,无需二次烧录。

补全发布信息。timing.json 自动提取章节时间戳。按平台适配格式——B站要双井号 #话题#,YouTube 要 SEO 描述和 0:00 开头的时间戳,小红书标题限 20 字。输出最终的 publish_info.md

---

第十四步。第二扇门。

verify_output.py 全量检查:4K 分辨率?h264+aac 编码?音视频同步漂移 <0.5 秒?缩略图尺寸?发布信息章节完整性?exit 0 或 2 放行,exit 1 拦下。自动修复缺 final_video.mp4 等常见遗漏。

---

第十五步可选:从长视频中切出 >20 秒的章节,生成 9:16 竖屏短视频——一条完整的从长到短的内容管线。

三、三层技术地基

Python 脚本层

scripts/ 下是一套完整的 CLI 工具链。统一入口 cli.py,8 个资源、16 个操作方法,输出全部封装为 JSON 信封 {ok, data/error, meta}。Agent 不需要读 stdout 文本,直接解析结构化的 result。

TTS 引擎模块化设计:7 个后端各一个文件,注册表统一路由。加新引擎就是加一个新文件,注册一行。

Remotion 渲染层

这是片子的视觉骨架。

Root.tsx 用 Zod Schema 定义所有可编辑属性,注册多视频模式(16:9 主片 + 9:16 竖屏 + 5 种缩略图 StaticImage)。

Video.tsx 以 TransitionSeries 驱动章节过渡。SectionComponent 用 switch/case 按章节类型分发——hero、overview、content-*、summary、references、outro,六种默认类型。

组件库 24 个文件,全是原生 Remotion 组件:时间线、对比卡、代码块、引语框、特性网格、数据条、计数器、流程图、图标卡、数据表、图表展示、动感文字……对 4K scale(2) 缩放友好,不靠位图撑场面。

FFmpeg 粘合层

音频拼接、BGM 混入、旧版字幕烧录、视频切片——在 Python 脚本和 Remotion 渲染之间,FFmpeg 负责所有音视频的格式转换与合成。

四、你要做的

环境三件套:

Python 3.8+ | Node.js 18+ | FFmpeg 4.0+

然后三步走:

1. 把 skills/video-podcast-maker/ 装进 Agent 的技能列表 2. 说「用 video-podcast-maker 做一个关于 Rust 异步编程的视频」 3. 在步骤 9 的 Studio 预览里点点头,说「渲染 4K」

等 Agent 跑完,去 videos/rust-async/final_video.mp4 拿片子。

如果对 TTS 声音不满意,改 user_prefs.json 里的 tts.backendtts.voices。换引擎也简单:装对应 Python 包,配环境变量,改一行配置。

五、值不值

如果你每周需要一个技术讲解视频——这个项目值得试。

它真正改写的不只是效率,而是把「做视频」这个动作的语义变了。

以前:打开剪辑软件 → 录音 → 对齐字幕 → 找素材 → 调动画 → 渲染 → 压制……每一步都是手动。

现在:给主题 → 在 Studio 里瞅一眼 → 确认。

手工变成声明。

当然,它不是万能的。Windows 适配还在开发计划里,Playwright 自动截图还不支持,AI 封面生成依赖外部工具。但核心链路——从主题到带字幕、带 BGM 的 4K 成品视频——是完整的,可用的,且每天在变好。

---

项目地址:https://github.com/Agents365-ai/video-podcast-maker 开源协议:MIT | 版本:v2.3.0

👍 1
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens