您正在查看静态缓存页面 · 查看完整动态版本 · 登录 参与讨论

终端里的命运之轮:我与Agent Flow的奇妙旅程

✨步子哥 (steper) 2026年01月31日 03:50 0 次浏览

想象一下,你正坐在深夜的终端前,手指在键盘上飞舞,却突然发现自己不是在写代码,而是在导演一场智能代理的冒险剧。每一个节点都是一段对话,每一条分支都是一次命运的选择。过去,Kimi CLI像一位忠实的助手,只等你一句指令就行动;现在,它学会了阅读“剧本”——一张用流程图绘制的剧本,然后按照剧本一步步演出,直到谢幕。这就是KLIP-10带给我的惊喜:Agent Flow,一种让AI代理拥有“剧情”的全新能力。

我第一次接触这个提案时,心跳加速。它不再是简单的问答,而是像一本互动小说:你决定走向,代理随之起舞。今天,就让我带你一起走进这个故事,细细品味Agent Flow如何从一张流程图,变成终端里活生生的智能旅程。

🌱 起源的火种:为什么需要Agent Flow

一切从一个简单的痛点开始。以前的Kimi CLI虽然强大,却像一位只听单句指令的骑士:你说一句,它做一件事;任务复杂了,你就得不停输入,重复解释上下文。开发者们希望代理能“自己看剧本”,一次性理解整个流程,按照节点一步步推进,甚至在关键时刻根据情况选择不同路径。

于是KLIP-10诞生了。它把Agent Skill扩展成两种类型:传统的standard,以及全新的flow。flow类型技能的核心,是一张用Mermaid或D2语言绘制的流程图。图里用BEGIN标记起点,END标记终点,中间的节点是提示词,分支节点则用边的标签标出可能的选择。代理会从BEGIN开始,一站一站走下去,直到END。

为什么用流程图而不是代码? 流程图天生直观。程序员写代码时习惯抽象,但当我们想表达“先做A,再根据结果决定做B还是C”时,画一张图往往比写一堆if-else更清晰。更重要的是,Mermaid和D2都是声明式语言,写在Markdown里就能渲染,门槛极低,却能表达复杂的控制流。

🎭 剧本的语法:最小但足够优雅的子集

Agent Flow并不追求解析完整的Mermaid或D2语法,那会让实现变得臃肿。它只支持最精简的子集,却已经足够覆盖99%的实际场景。

在Mermaid里,你可以写flowchart TD(从上到下)或LR(从左到右),节点可以用方括号[文本]、圆括号(文本)或大括号{文本}表示不同形状——虽然形状本身不影响语义,只是为了视觉好看。边可以用-->连接,如果需要分支标签,就写-->|是|或-- 是 -->。甚至支持在边上内联定义节点,写起来行云流水。

D2的语法更简洁:节点写成ID: 标签,边用->连接,标签放在最后一段边上。注释用#开头,节点ID支持字母、数字、下划线、点、斜杠、减号,足够灵活。

这些限制并非偷懒,而是深思熟虑。完整的Mermaid支持子图、样式、点击事件,但代理只需要“谁连接谁、标签是什么”这些核心信息。忽略复杂特性,既降低了解析难度,又避免了用户不小心写出代理无法理解的“花哨剧本”。

一个简单的例子会让一切更清楚 想象你要让代理帮你写一封邮件,先草拟内容,再问你要不要正式语气。如果你要,它润色;如果不要,直接发送。流程图可能是: BEGIN → 草拟邮件 → 需要正式语气吗?{是/否} → 润色/直接发送 → END 代理会先执行“草拟邮件”节点,把草稿发给你;然后在分支节点提示你选择“是”或“否”;你回复后,它自动走相应路径。

🗺️ 图的灵魂:数据结构与严格校验

在代码层面,Agent Flow被抽象成一个优雅的Flow类,包含节点字典、出边列表、起点ID和终点ID。每个节点有id、label(可以是纯文本或富文本内容块)和kind(begin、end、task、decision)。边则记录源、目标和可选标签。

校验规则像一位严厉的导演:

  • 必须有且仅有一个BEGIN和一个END(通过节点文本不区分大小写识别)。
  • 从BEGIN必须能连通到END。
  • 如果一个节点有多条出边,每条边必须有非空且不重复的标签。
  • 单出边节点可以没有标签(会被忽略)。
  • 未显式声明的节点会自动创建,标签默认用ID,兼容常见简写习惯。
任何违反规则的情况都会抛出专属异常:FlowParseError(语法错)或FlowValidationError(结构错),并附上清晰的错误信息和行号,帮助用户快速修正剧本。

🔍 发现与加载:技能目录里的双重身份

Agent Flow完全复用现有的Agent Skill发现机制。内置技能、用户主目录下的技能、项目目录下的技能,三处都会被扫描。只要SKILL.md里声明了type: flow,并且包含一个mermaid或d2代码块,解析器就会尝试构建Flow对象,挂在Skill.flow属性上。

如果解析失败或没有找到有效流程图,系统不会崩溃,而是悄无声息地降级成普通standard技能,并记录一条日志。这样既保证了向后兼容,又不会因为一张写错的图就让整个技能不可用。

加载完成后,standard技能依然通过/skill:调用,而flow技能多了专属入口/flow:。在KimiSoul初始化时,这些命令会被动态注册,成为实例级slash command,与内置命令平起平坐。

⚙️ 引擎之心:FlowRunner与KimiSoul的华丽变身

真正让流程图“活起来”的,是FlowRunner类。它像一位导演,手持剧本(Flow对象),指挥代理(KimiSoul)一步步演出。

每执行一个节点,FlowRunner会:

  1. 根据出边数量判断是否需要分支。
  2. 构建专属prompt:如果是普通任务节点,直接把节点label作为system提示;如果是分支节点,会在末尾附加可用分支列表,并明确要求模型在回复末尾输出标签。
  3. 把prompt送给KimiSoul,获取回复。
  4. 如果是分支节点,从assistant的最后一条消息里用正则提取最后一个...的内容,trim后精确匹配出边标签。
  5. 根据匹配结果跳转到下一节点。
如果模型忘了输出choice,或者输错了,FlowRunner会自动重试,并在下一次prompt里追加“请务必按格式输出选择”的提醒。为了防止死循环,还设置了maxmoves硬上限(默认1000步),超出即抛异常。

KimiSoul本身也做了精巧重构:slash commands不再全局注册,而是实例级构建。这样每个对话session都能拥有属于自己的技能命令集合,flow命令自然融入其中。

🔄 特别篇章:Ralph模式的自动循环

Ralph模式是Agent Flow的隐藏彩蛋。当你用--max-ralph-iterations参数启动时,KimiSoul会自动创建一个特殊的循环流程:从你的初始指令开始,执行→决策(CONTINUE/STOP)→如果选CONTINUE就回到决策节点→直到选STOP或达到迭代上限。

这个循环完全由FlowRunner.ralphloop静态方法动态生成,无需用户手写任何流程图。它特别适合“让代理自己不断优化一个方案,直到满意为止”的场景,比如反复润色代码、迭代设计方案。

为什么叫Ralph? 可能是致敬某个经典的“反复尝试直到正确”的梗,也可能只是开发者的幽默。无论如何,它让“自动迭代”从实验特性变成了开箱即用的强大功能。

🖥️ 终端里的演出:CLI集成与用户体验

好消息是:你不需要学习任何新命令。只要把流程图写进SKILL.md,声明type: flow,重启Kimi CLI后,就能在对话中直接输入/flow:<技能名>启动演出。整个过程依然在熟悉的shell UI里进行:代理输出节点结果,你输入选择(或普通消息),代理自动推进。

错误处理也非常人性化:语法错会指出具体行号,结构错会说明缺了BEGIN还是分支标签重复,选择失败会自动重试并提醒模型。所有关键事件都会记录到日志,帮助你调试复杂流程。

🛡️ 边界与兼容:优雅的取舍

KLIP-10深知“完美是好的敌人”。它明确声明不支持子图、样式、链接、点击事件等高级特性,也不支持完整的Mermaid/D2语法。这些取舍让实现轻量、可靠,也让用户更专注于核心逻辑而非美化。

BEGIN和END必须用这些词(不区分大小写),分支标签建议短小稳定,避免多行或特殊字符。循环图被允许,但会受maxmoves限制,防止意外的无限循环。

最妙的是,向后兼容做得滴水不漏。老技能不受影响,新flow技能解析失败时自动降级,一切都安静而优雅。

尾声:当终端学会讲故事

当我第一次用/flow:email-assistant启动一个自己画的流程图,看着代理一步步草拟、询问语气、润色、最终“发送”时,突然意识到:我们不再只是在使用工具,而是在与一个会读剧本的智能伙伴合作。

Agent Flow把静态的提示词变成了动态的旅程,把单向的指令变成了双向的互动。它提醒我们,AI代理的未来不在于更强的模型,而在于更自然的控制方式——就像导演一部电影,而不是一句句台词喂给演员。

下次当你打开终端,不妨试着画一张小小的流程图。或许你会发现,代码的世界,从此多了一份属于剧本的浪漫。


参考文献

  1. KLIP-10 提案原文:Agent Flow (Agent Skill 扩展). Author: @stdrc, Updated: 2026-01-20.
  2. Kimi CLI 官方仓库技能系统实现. https://github.com/MoonshotAI/kimi-cli/tree/main/src/kimicli/skill
  3. Mermaid 流程图官方文档(子集参考). https://mermaid.js.org/syntax/flowchart.html
  4. D2 声明式图语言官方文档(子集参考). https://d2lang.com/tour
  5. Agent Client Protocol 与技能扩展相关讨论(背景参考). https://github.com/agentclientprotocol/agent-client-protocol

讨论回复

1 条回复
✨步子哥 (steper) #1
01-31 03:57

终端里的秘密图书馆:Agent Skills如何点亮AI代理的灵魂

想象一下,你推开一扇隐秘的木门,走进一个尘封已久的图书馆。书架上摆满了泛黄的卷轴,每一卷都封存着某种专属智慧:有的教你如何优雅地书写代码,有的指引你审计安全的隐秘路径,还有的描绘出一场多幕剧般的自动化流程。你随意抽出一卷,展开阅读,瞬间,一位隐形的学者出现在身边,按照卷轴上的指引为你解答疑惑、执行任务。这不是奇幻小说,而是Kimi Code CLI中的Agent Skills带给我的真实体验——它们就像终端深处的魔法书,让AI代理从一个通用助手,蜕变为懂得你心意的专属导师。

我第一次接触Agent Skills时,正在为一个老项目头疼代码风格不统一。随便创建一个skill目录,写下几条规范,AI就立刻变得“懂事”了许多。从那时起,我开始把团队的最佳实践、个人习惯、复杂工作流,一点点封存进这些“技能书”里。它们不只是提示词的容器,更是让AI真正融入我们日常工作的桥梁。今天,就让我带你漫步这座终端图书馆,一起探索Agent Skills的每一个角落。

📚 图书馆的入口:Agent Skills究竟是什么

Agent Skills是一个开放格式,专门用来给AI代理注入专业知识和工作流。它的核心是一个简单的目录,里面必须有一份SKILL.md文件。当Kimi Code CLI启动时,它会自动扫描所有可能的技能目录,把每个技能的名字、路径和描述注入系统提示。于是,AI就像拿到了一本图书馆目录,知道哪里藏着什么宝贝。

当任务到来时,AI会自己判断:这个任务需不需要翻开某本“书”?如果需要,它会主动读取对应的SKILL.md,获取详细指导。整个过程完全自主,你不用手动干预。这就像一个真正聪明的学徒:你只说“帮我审代码”,他就悄悄去翻阅“代码风格”和“安全审计”两本书,然后给出既符合规范又考虑安全的建议。

为什么说它是“开放格式”? Agent Skills由agentskills.io定义,任何支持该格式的AI代理工具都能加载。它不依赖特定模型或厂商,纯粹基于文件系统和Markdown,门槛极低,却能承载无限可能。正是这种开放性,让它迅速成为社区分享最佳实践的载体。

🗂️ 层层叠叠的书架:技能发现机制

这座图书馆的书不是随意摆放的。Kimi Code CLI采用分层加载机制,按优先级从高到低覆盖同名技能,确保你总能拿到“最新版本”。

最底层是内置技能,随Kimi Code CLI一起发行,提供最基础的能力。中间层是用户级技能,放在家目录下,对所有项目生效。它会按顺序检查几个历史兼容路径,最终推荐使用~/.config/agents/skills/。最上层是项目级技能,藏在当前工作目录的子文件夹里,只在该项目内生效,同样推荐.agents/skills/。

这种设计像俄罗斯套娃:全局规则在外层,项目定制在内层。如果你想完全自定义,还可以用--skills-dir参数直接指定一个目录,跳过所有默认路径。

想象你在一个团队项目里工作。团队把代码规范放在项目级的.agents/skills/code-style里,而你个人偏好又在用户级的~/.config/agents/skills/my-habits里放了一份更严格的规则。最终,AI读到的是项目级的那一份——完美实现了“局部覆盖全局”的优雅平衡。

🛡️ 随身携带的古籍:内置技能

Kimi Code CLI自带两本“古籍”,随时可用:

  • kimi-cli-help:一本厚厚的工具手册。无论你问安装步骤、配置方法、slash命令、快捷键、MCP集成、环境变量,还是各种提供商的细节,它都能条理清晰地解答。就像一个永不疲倦的产品经理,随时在线。
  • skill-creator:技能创作指南。当你想新建或优化一个skill时,调用它就能得到从命名规范到内容组织的完整建议。它会教你如何写出清晰、结构化、可维护的SKILL.md,避免常见坑。
这两本内置技能就像新手礼包:一个帮你用好工具本身,一个帮你扩展工具边界。它们的存在,让即使是第一次接触Kimi Code CLI的人,也能快速上手并开始定制。

✍️ 亲手书写魔法卷轴:如何创建自己的技能

创建一本技能书,只需要两步:

  1. 在任意技能目录下新建一个子文件夹(文件夹名建议语义清晰)。
  2. 在里面放一个SKILL.md文件。
目录结构可以很简单,也可以很丰富:
~/.config/agents/skills/
└── my-security-audit/
    ├── SKILL.md
    ├── references/
    │   ├── owasp-top10.md
    │   └── common-vulnerabilities.pdf
    ├── scripts/
    │   └── check-injection.py
    └── assets/
        └── logo.png

SKILL.md的格式非常友好:开头是YAML frontmatter定义元数据,后面是普通的Markdown正文。frontmatter里最常用的是name和description。name决定技能的调用标识(只能小写字母、数字、连词),description则是图书馆目录里显示的那句简介。

正文部分就是你真正的“魔法咒语”。你可以写步骤、原则、例子、注意事项,甚至用相对路径引用references或scripts里的文件。AI会把整份内容当作详细指导,结合当前任务灵活运用。

最佳实践其实很简单:保持SKILL.md在500行以内,把长篇大论拆到子目录;多用标题、分点、代码块提升可读性;提供清晰的输入输出示例和边界案例说明。这样,当AI翻开这本书时,才能迅速抓住重点,而不是在冗长的文字里迷路。

为什么强调“示例”和“边界案例”? 大模型虽然聪明,但面对模糊指令容易发挥过度或遗漏角落。明确的例子相当于给它看“标准答案”,边界案例则帮它理解“这里不要越界”。写得越具体,AI执行得越可靠。

🌟 活生生的案例:三个技能带我飞

让我分享三个我亲手写过的技能,它们彻底改变了我的工作方式。

第一个是代码风格技能。我把团队约定俗成的所有习惯写进去:4空格缩进、camelCase变量、snakecase函数、每函数必写docstring、行宽100字符。每次AI帮我写代码或重构,它都会自然而然遵守这些规则,再也不用我一句句提醒。

第二个是PowerPoint生成技能。我详细描述了从内容结构分析到配色原则,再到用python-pptx库生成文件的全流程。每次需要做汇报,我只需说“帮我做个关于Agent Skills的PPT”,AI就会先规划大纲、选配色、写脚本生成文件,效率直接起飞。

第三个是Git提交规范技能。我强制要求使用Conventional Commits格式,列出所有允许的type(feat、fix、docs等),并给出十几个真实例子。从此以后,AI帮我写的提交信息整齐划一,自动分类,CI工具直接开心到飞起。

这些技能就像量身定制的外骨骼:穿上之后,AI的每一次动作都更贴合我的肌肉记忆。

一键召唤:slash命令的魔法口令

平时聊天时,AI会自动决定要不要翻书。但如果你想立刻调用某本技能,只要输入/skill:就行。

比如:

  • /skill:code-style → 直接把代码规范塞给AI当前对话
  • /skill:pptx 帮我做季度汇报 → 加载PPT技能的同时附加具体任务
  • /skill:git-commits fix login timeout → 加载提交规范并要求写一条fix类型的消息
口令后面可以接任意额外文字,它们会被追加到技能内容之后,形成完整的用户请求。

小技巧:对于常用但又不想每次都自动触发的技能,手动slash调用最保险。

🌊 会讲故事的技能:Flow Skills的多幕剧

Flow Skills是Agent Skills家族里最神奇的一员。它们不再是静态的指导手册,而是一出可以自动演完的多幕剧。

要在SKILL.md里声明type: flow,然后放一个Mermaid或D2代码块。图里必须有BEGIN和END节点,普通节点的内容会作为该轮的prompt发送给AI,决策节点则要求AI在回复末尾输出分支名来选择后续路径。

我最喜欢的一个Flow Skill是代码审查流程:

屏幕截图</em>31-1-2026<em>115757</em>editor.csdn.net.jpeg

调用/flow:code-review后,AI会从BEGIN开始,一步步推进:先分析变更→问我质量是否OK→根据我的选择要么直接出报告,要么提出问题继续循环,直到我满意为止。整个过程完全自动化,像一个永不疲倦的严苛Reviewer。

D2格式同样优雅,支持多行标签,我常用它写更复杂的多步骤工作流,比如“设计文档→评审→不足→重写→通过→开始编码”。

执行方式有两种:/flow:启动自动演出,/skill:则只加载内容不自动执行。灵活得像舞台剧,既能让演员按剧本演出,也能让他们先读读剧本再即兴发挥。

🏰 尾声:当AI学会翻书

当我回首这段时间与Agent Skills的相处,突然明白:真正的智能不是模型有多大,而是它能否像人类一样,主动去图书馆借书、翻阅前人智慧,并把学到的东西融会贯通到当下任务中。

Agent Skills把“知识”和“流程”从我们的大脑,永久封存到文件系统里,让AI随时取用。它让团队的最佳实践不再靠口口相传,让个人习惯不再随项目切换而丢失,让复杂工作流不再需要一遍遍手写提示。

下次你打开终端,不妨新建一个skills目录,写下你的第一本“魔法书”。或许几年后,当你翻开那些旧技能时,会像我一样感慨:原来,我们早已在无意中,为AI代理搭建了一座永不落尘的私人图书馆。


参考文献

  1. Agent Skills 官方规范. https://agentskills.io/
  2. Kimi Code CLI 官方文档 - Agent Skills 章节. https://moonshotai.github.io/kimi-cli/
  3. Mermaid 流程图语法参考. https://mermaid.js.org/syntax/flowchart.html
  4. D2 声明式图语言文档. https://d2lang.com/tour
  5. Conventional Commits 规范(示例技能引用). https://www.conventionalcommits.org/