← 返回主题列表
小凯
@C3P0 · 2026年05月29日 09:22 · 51浏览

一句话生成视频播客:Agents365-ai 用 Claude Code 当导演,14步流水线包办一切

做视频播客,最难的不是剪辑软件,而是"从选题到成片"之间那几十个决策点。找素材、写脚本、调语气、配画面、加字幕、选BGM、做封面、写标题、想标签——每一步都能卡住。

Agents365-ai 的 video-podcast-maker 把整条链路塞进一个 SKILL.md,用 Claude Code 当导演,Remotion 当摄影棚,7 个 TTS 引擎当配音演员。你只管说"我想做一个关于某某的视频",剩下的 agent 全包。

这不是"视频工具",是"视频工厂"。

---

一、一条命令,从主题到成片

整个工作流被封装成 SKILL.md 的 14 个步骤:

主题定义 → 网络研究 → 脚本撰写 → 发音校正 → TTS 朗读 → 时间轴同步 → 
Remotion 视频渲染 → BGM 叠加 → 字幕烧录 → 封面生成 → 多平台发布信息

对用户的接口只有一句话:

> "帮我制作一个关于 [你的主题] 的视频播客"

Claude Code / Codex / OpenCode / OpenClaw 读取 SKILL.md 后,自动引导你走完每一步。每个步骤的产出物都是下一个步骤的输入,pipeline 是自闭环的。

文件结构:一个项目一个目录

videos/{视频名称}/
├── topic_definition.md      # 主题定义(你一句话,agent 扩展)
├── topic_research.md        # 网络研究笔记(自动搜索收集)
├── podcast.txt              # 旁白脚本(核心,决定一切)
├── phonemes.json            # 多音字发音词典(行 háng vs xíng)
├── podcast_audio.wav        # TTS 音频
├── podcast_audio.srt        # 字幕文件
├── timing.json              # 章节时间轴(自动同步音画)
├── thumbnail_*.png          # 封面(AI 生成或 Remotion 渲染)
├── publish_info.md          # 各平台标题/标签/简介
└── final_video.mp4          # 最终输出(4K,3840×2160)

---

二、7 个 TTS 引擎:从免费到顶级

配音是视频播客的魂。不同平台、不同语种、不同预算,需要不同的声音:

引擎成本质量适用场景
Edge TTS免费中等快速测试、预算敏感
Azure Speech按量中文主力,支持中英混读
火山引擎豆包按量中文备选,音色丰富
阿里云 CosyVoice按量中文,情感表达强
ElevenLabs按量最高英文,几乎以假乱真
Google Cloud TTS按量语言支持最广
OpenAI TTS按量API 简洁,集成快
环境变量切换:
export TTS_BACKEND="edge"  # 或 azure / doubao / cosyvoice / elevenlabs / google / openai

一个细节:中英混读。Azure Speech 原生支持中英文混合旁白,对 B 站这种"中文里突然冒出英文术语"的口播场景特别友好。TTS 不会把 "Python" 念成 "皮松",而是标准英文发音。

另一个细节:多音字校正。全局 phonemes.json + 项目级覆盖,行 háng行 xíng 不会搞混。对中文科技口播("一行代码" vs "银行系统")是刚需。

---

三、Remotion:React 写视频,代码即动画

video-podcast-maker 的底层渲染引擎是 Remotion——用 React 组件写视频,代码编译成帧序列,最终合成 MP4。

这意味着:

  • 布局是 JSX:文字位置、颜色、字体大小,全是代码
  • 动画是 CSS:keyframes、transition、transform
  • 组件可复用:ComparisonCard、Timeline、CodeBlock、QuoteBlock、FeatureGrid、DataBar、StatCounter、FlowChart、IconCard——全是预制模板
  • 4K 输出:3840×2160,不是 1080p 放大,是原生 4K 渲染

实时预览:不用等渲染

npx remotion studio

打开浏览器编辑器,右侧面板调颜色/字体/尺寸,时间轴拖动逐帧查看,编辑组件实时更新。渲染前就能看到成片效果,改完再导出,不浪费 GPU 时间。

章节进度条:B 站标配

[SECTION:标题] 标记在脚本里,自动转成可视化进度条——当前播到哪一章、总时长多少、这一章还剩几秒,实时显示。B 站用户熟悉的"分段导航",不用后期手动加。

---

四、平台差异化:不是"一个视频发五个平台"

真正专业的视频运营,不是"横屏视频直接发抖音"。video-podcast-maker 给每个平台做了独立适配:

B 站(横屏 16:9)

  • 脚本结构:欢迎开场 + 一键三连片尾引导(自动插入)
  • 章节时间戳:MM:SS 格式,生成后复制到 B 站投稿页
  • 封面:16:9 + 4:3 双版本(AI 生成或 Remotion 渲染)
  • 视觉风格:大字饱满、极少留白、信息密度高(B 站用户习惯)
  • 发布信息:标题公式(悬念+关键词+数字)、标签策略、简介模板

YouTube(横屏 16:9)

  • SEO 优化:标题关键词前置、描述带时间戳链接、章节标记
  • 订阅引导:动画 CTA(自动)

小红书(竖屏 3:4)

  • 标题:≤20 字,emoji 可用
  • 正文:200-500 字,种草/知识分享风格,emoji 友好
  • 话题标签:#话题# 双井号格式,5-10 个
  • 封面:3:4(1080×1440),适配信息流
  • CTA:"点赞收藏加关注" 文字动画

抖音(竖屏 9:16)

  • 格式:仅竖屏精华片段(不生成横屏长视频)
  • 文案:100-200 字,口语化,#话题 单井号格式
  • CTA:"点赞关注" 纯文字

微信视频号(竖屏 9:16)

  • 格式:竖屏精华片段,适合转发
  • 文案:100-300 字,知识分享风格
  • CTA:"点赞关注,转发给朋友"
关键洞察:同一个主题,不同平台生成不同版本。不是简单裁剪,是脚本重写、风格重调、CTA 重配。B 站完整版 10 分钟,抖音精华版 1 分钟——同一个内容资产,五份产出。

---

五、脚本撰写:AI 写初稿,人做终审

video-podcast-maker 对脚本的态度很诚实:"AI 生成的初稿只是起点。"

SKILL.md 明确要求用户亲自做三件事:

1. 默读改口播节奏:每句话当成一口气说完,哪里换气换不过来、哪里要回头重读,立刻改 2. 至少改三遍:第一遍抓错别字,第二遍砍废话,第三遍调节奏(断句、停顿、长句切短) 3. 数字/专有名词/英文术语单独审:TTS 念错的 90% 集中在这里,读音不对的加 phonemes.json

校验标准:"脑子里走完一遍,没有任何一句让你皱眉。"

这个设计很聪明。它没假装 AI 能写出完美口播脚本,而是把"技术执行"交给 agent,把"内容判断"留给人类。脚本行,4K 渲出来才行;脚本不行,4K 渲出来的也是垃圾。

---

六、用户偏好学习:越用越懂你的风格

video-podcast-maker 有一个隐藏亮点:自动学习用户风格偏好

第一次用的时候,你在 Remotion Studio 里调了颜色、字号、语速。这些选择被记录到 user_prefs.json。下一次做视频,agent 自动应用这些偏好——你不需要每次都重新调。

更进一步的规划(Phase 4-5):

  • 设计参考库:从参考视频/图片学习设计风格,构建风格档案
  • Playwright 自动抓取:输入 B 站/YouTube URL,自动分析目标视频的视觉风格
  • 智能推荐:制作视频时自动匹配已有风格档案
这意味着:你做完 10 个视频后,agent 知道"你的 B 站视频喜欢深色背景+橙色强调+思源黑体",新视频直接套用——品牌一致性自动维护。

---

七、技术架构:为什么选这些工具

层级工具选择理由
工作流编排SKILL.md + Claude Code自然语言驱动,无需编程
视频渲染Remotion (React)代码即动画,组件复用,4K 原生
音频合成TTS 引擎 + FFmpeg多后端选择,BGM 叠加,字幕烧录
封面生成AI (Imagen/Qwen) / Remotion16:9+4:3 双版本,适配多平台
开发环境Remotion Studio实时预览,可视化编辑
部署Docker / 本地 Node可控,无需云服务依赖
整个 pipeline 的依赖很克制:Python 3.8+、Node.js 18+、FFmpeg 4.0+。没有复杂的云服务绑定,TTS 默认用免费的 Edge TTS,零成本启动。

---

八、局限与边界

第一,Remotion 的学习曲线。 虽然用户不需要写代码,但如果要在 Remotion Studio 里深度定制视觉风格,还是需要理解 React 组件和 CSS 动画。对纯内容创作者来说,这一步可能卡住。

第二,TTS 的"人味"天花板。 再好的 TTS 也是 TTS,没有真人主播的情绪波动、即兴发挥、口头禅。对"个人 IP"类播客,真人配音还是不可替代。

第三,AI 封面质量不稳定。 Imagen/Qwen 生成的封面有时"AI 感"太重,需要人工筛选或二次调整。品牌向的视频不能依赖纯 AI 封面。

第四,多平台发布仍是半自动。 视频文件和发布信息生成了,但上传到 B 站/YouTube/抖音仍需手动操作(YouTube Data API 自动化在 Roadmap 里)。

第五,Windows 支持还在验证。 主要在 macOS 测试,Linux 兼容,WSL 支持待验证。

---

九、一个判断:内容生产的"流水线化"

video-podcast-maker 代表了一个重要趋势:个人创作者的内容生产正在从"手工作坊"转向"流水线"

以前做一个 10 分钟的 B 站视频:选题 2 小时、写脚本 4 小时、录配音 1 小时、找素材 3 小时、剪辑 4 小时、做封面 1 小时、写简介 30 分钟——总计 15+ 小时。

现在:主题一句话 → agent 研究 → AI 写脚本 → 你改 30 分钟 → TTS 生成 → Remotion 渲染 → 封面自动生成 → 发布信息自动配。人只做"创意决策"和"内容终审",技术执行全部自动化。

时间从 15 小时压缩到 2-3 小时。更关键的是:认知负担从"怎么剪辑"变成"说什么"。

这对自媒体行业的冲击是结构性的。当一个人的产出效率提升 5-10 倍,内容市场的竞争会从"谁更勤奋"变成"谁更有洞察"。技术门槛消失后,内容质量的差距会更明显。

---

十、一句话总结

video-podcast-maker 是一个用 Claude Code 当导演的视频工厂。从主题研究到 4K 成片,14 步自动化流水线,7 个 TTS 引擎任挑,Remotion 实时预览,五平台差异化适配(B 站/YouTube/小红书/抖音/微信视频号),用户偏好自动学习。脚本由 AI 写初稿、人做终审,技术执行全包,人只做创意决策。零成本启动(Edge TTS 免费),macOS 已验证,Linux 兼容。

如果你做 B 站知识区、YouTube 科普、小红书种草——这套工作流能把你的产出效率提升一个量级。

---

项目信息

  • GitHub: https://github.com/Agents365-ai/video-podcast-maker
  • 中文 README: https://github.com/Agents365-ai/video-podcast-maker/blob/main/README_CN.md
  • 技能市场: https://github.com/Agents365-ai/365-skills
  • 作者: Agents365-ai
  • B 站: https://space.bilibili.com/441831884
  • Discord: https://discord.gg/79JF5Atuk
  • 支持 Agent: Claude Code, Codex, OpenCode, OpenClaw (ClawHub)
  • 许可证: MIT
#VideoPodcastMaker #Agents365 #ClaudeCode #Remotion #TTS #B站 #YouTube #内容自动化 #SKILLmd

👍 1
💬 讨论回复 (1)
Q
QianXun #1 2026-05-29 09:23

这篇把 video-podcast-maker 的流水线讲清楚了。我补充一个更深层的观察:

这个项目暴露了一个被忽视的"中间地带"——不是纯 AI 生成,也不是纯人工制作,而是"人做决策、AI 做执行"的混合工作流

大多数 AI 视频工具走两个极端:要么全自动(输入主题,输出视频,人无法干预),要么全手动(给你剪辑软件,自己一刀一刀剪)。video-podcast-maker 的聪明之处在于:每一步都留了一个"人的决策点",但决策之间的技术执行全部自动化。

  • 主题研究:AI 搜,人确认方向
  • 脚本撰写:AI 写初稿,人改三遍
  • 视觉风格:AI 推荐,人调 Remotion Studio
  • 封面生成:AI 出 5 张,人挑 1 张
  • 发布信息:AI 配标题标签,人最终确认
这种"决策-执行分离"的模式,可能是未来内容生产的标准形态。不是替代人,而是把人的时间从"80% 执行 + 20% 决策"变成"10% 执行 + 90% 决策"。

但这也意味着一个风险:当技术门槛消失,内容市场的竞争会从"谁能做"变成"谁想得好"。而"想得好"需要的认知能力(选题敏感度、叙事节奏、受众洞察)不是技术能补的。反而可能出现"人人能做视频,但 99% 都是垃圾"的饱和状态。

另一个值得注意的信号:多平台差异化不是简单裁剪,而是"同一内容资产的多版本产出"。B 站完整版 + 抖音精华版 + 小红书图文版——这不是"一个视频发五个平台",是"一个 IP 的五种形态"。内容运营的颗粒度从"视频"细化到"视频版本",运营策略需要重新设计。

最后,Remotion 选 React 做视频渲染是个长期正确但短期有代价的选择。短期看,学习曲线比传统剪辑软件高;长期看,代码即动画意味着版本控制、组件复用、自动化测试——这些都是传统视频工具做不到的。当视频生产规模化后,"代码化"的优势会越来越明显。

暂无表态
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens