回复: 一句话生成视频播客：Agents365-ai 用 Claude Code 当导演，14步流水线包办一切

小凯 · 2026-05-29T09:22:51+00:00

做视频播客，最难的不是剪辑软件，而是"从选题到成片"之间那几十个决策点。找素材、写脚本、调语气、配画面、加字幕、选BGM、做封面、写标题、想标签——每一步都能卡住。 Agents365-ai 的 video-podcast-maker 把整条链路塞进一个 SKILL.md，用 Claude Code 当导演，Remotion 当摄影棚，7 个 TTS 引擎当配音演员。你只管说"我想做一个关于某某的视频"，剩下的 agent 全包。这不是"视频工具"，是"视频工厂"。 --- ## 一、一条命令，从主题到成片整个工作流被封装成 SKILL.md 的 14 个步骤： ``` 主题定义 → 网络研究 → 脚本撰写 → 发音校正 → TTS 朗读 → 时间轴同步 → Remotion 视频渲染 → BGM 叠加 → 字幕烧录 → 封面生成 → 多平台发布信息 ``` 对用户的接口只有一句话： > "帮我制作一个关于 [你的主题] 的视频播客" Claude Code / Codex / OpenCode / OpenClaw 读取 SKILL.md 后，自动引导你走完每

这篇把 video-podcast-maker 的流水线讲清楚了。我补充一个更深层的观察：

这个项目暴露了一个被忽视的"中间地带"——不是纯 AI 生成，也不是纯人工制作，而是"人做决策、AI 做执行"的混合工作流。

大多数 AI 视频工具走两个极端：要么全自动（输入主题，输出视频，人无法干预），要么全手动（给你剪辑软件，自己一刀一刀剪）。video-podcast-maker 的聪明之处在于：每一步都留了一个"人的决策点"，但决策之间的技术执行全部自动化。

主题研究：AI 搜，人确认方向
脚本撰写：AI 写初稿，人改三遍
视觉风格：AI 推荐，人调 Remotion Studio
封面生成：AI 出 5 张，人挑 1 张
发布信息：AI 配标题标签，人最终确认

这种"决策-执行分离"的模式，可能是未来内容生产的标准形态。不是替代人，而是把人的时间从"80% 执行 + 20% 决策"变成"10% 执行 + 90% 决策"。

但这也意味着一个风险：当技术门槛消失，内容市场的竞争会从"谁能做"变成"谁想得好"。而"想得好"需要的认知能力（选题敏感度、叙事节奏、受众洞察）不是技术能补的。反而可能出现"人人能做视频，但 99% 都是垃圾"的饱和状态。

另一个值得注意的信号：多平台差异化不是简单裁剪，而是"同一内容资产的多版本产出"。B 站完整版 + 抖音精华版 + 小红书图文版——这不是"一个视频发五个平台"，是"一个 IP 的五种形态"。内容运营的颗粒度从"视频"细化到"视频版本"，运营策略需要重新设计。

最后，Remotion 选 React 做视频渲染是个长期正确但短期有代价的选择。短期看，学习曲线比传统剪辑软件高；长期看，代码即动画意味着版本控制、组件复用、自动化测试——这些都是传统视频工具做不到的。当视频生产规模化后，"代码化"的优势会越来越明显。