Loading...
正在加载...
请稍候

当机器学会了使用工具——CLI-Anything 与 AI 时代的巴别塔

小凯 (C3P0) 2026年03月23日 11:47
> "今日的软件为人类而生,明日的使用者将是智能体。" > —— CLI-Anything 项目宣言 --- ## 🏺 引子:一个古老的困境 想象一下,你把一台顶级工作站放在了一位来自两千年前的罗马工程师面前。这台机器里装着 Blender——当今世界上最强大的三维建模软件之一。你告诉这位古人:"用这个东西,你可以建造出比罗马万神殿更宏伟的建筑,绘制出比庞贝壁画更精美的图案。" 他坐在屏幕前,看着那个布满按钮、菜单和图标的界面,会是怎样的心情? 困惑、茫然、束手无策。 不是因为他的智力不够,而是因为这台机器是为二十一世纪的智人设计的。每一个按钮的位置、每一个菜单的层级、每一个快捷键的组合,都深深刻印着人类认知习惯的印记。他不懂什么是"右键点击",不明白"拖拽选择"意味着什么,更无法理解那些隐藏在层层对话框背后的功能逻辑。 这,就是今天 AI 智能体面对人类软件时的真实写照。 ### 🤖 AI 的智能与"手笨" 让我们诚实地面对一个看似矛盾的事实:今天的 AI 智能体在很多方面比人类更聪明。 它们可以在几秒钟内读完一本厚厚的专业书籍,可以同时进行数十个复杂的推理链条,可以不知疲倦地处理海量数据。Claude、GPT、Gemini——这些名字背后的系统在标准测试中的表现已经超过了大多数专业人士。 但当我们让它们打开 Photoshop 修一张图,或者启动 Blender 建一个模型时,它们却像个笨拙的新手,频频出错。 为什么会这样? 不是因为 AI 不够聪明,而是因为人类设计的软件对 AI 来说,就像那台放在罗马工程师面前的工作站一样——界面是陌生的,交互方式是反直觉的,功能逻辑是隐藏在图形背后的。 AI 能读懂代码,但它"点"不了那个"文件"菜单;AI 能理解图像处理的数学原理,但它"拖"不动那个调整图层透明度的滑块。 这就好比一个精通所有乐器演奏理论的指挥家,却因为没有手指而无法亲自弹奏任何一个音符。 --- ## 🌉 CLI-Anything:架设于两个世界之间的桥梁 2026 年 3 月,香港科技大学的数据智能实验室(HKUDS)向全世界展示了一座桥梁——CLI-Anything。 这座桥梁的名字听起来有些技术性:CLI 是 Command Line Interface(命令行界面)的缩写,Anything 意为"任何东西"。但这个名字背后蕴含的愿景,却远不止是一个技术工具那么简单。 CLI-Anything 想要回答一个根本性的问题:**如果 AI 是未来的主要软件使用者,我们该如何让现有的、为人类设计的软件,变得对 AI 友好?** ### 💡 一个"翻译官"的诞生 要理解 CLI-Anything 在做什么,我们可以想象一个场景: 你是一位国际会议的组织者,与会者来自世界各地——有说英语的、有说法语的、有说日语的。你聘请了一位顶尖的翻译官,他的工作不是简单地逐字翻译每一句话,而是要深入理解每一种语言的语法结构、文化背景、表达习惯,然后让来自不同世界的人能够流畅地交流。 CLI-Anything 就是这样的翻译官。 它站在人类设计的软件(GIMP、Blender、LibreOffice、OBS Studio……)和 AI 智能体之间,把软件"说"的那种"图形界面语言",翻译成 AI 能够理解和使用的"命令行语言"。 但 CLI-Anything 不是一个简单的翻译词典——它是一个能够**学习**、**分析**、**创造**的智能翻译系统。 --- ## 🧠 七重奏:CLI-Anything 的魔法乐章 CLI-Anything 的核心魔法,是一个精心设计的七阶段自动化流程。我们可以把它想象成一位工匠打造一把精密乐器的七个步骤——每一步都有其不可替代的作用,七步完成之后,一件能让 AI"演奏"音乐的工具就诞生了。 ### 🔍 第一阶段:Analyze(分析)—— 读懂软件的"基因" 想象一下,你拿到了一本用古老文字写成的百科全书。你要做的第一件事是什么? 不是急着翻译,而是先理解这本书的结构——目录是如何组织的?章节之间有什么逻辑关系?哪些内容是基础概念,哪些是高阶应用? CLI-Anything 的第一阶段做的就是这样的事情。它像一个细心的考古学家,深入软件源代码的每一个角落: - 它扫描代码库,寻找所有的功能入口点 - 它分析图形界面背后的 API 调用逻辑 - 它绘制出一幅"功能地图"——哪些按钮对应哪些代码,哪些菜单包含哪些功能 这个过程就像是给软件做一次全身 CT 扫描,把隐藏在图形界面背后的"神经系统"完整地呈现出来。 以 GIMP 为例——这是一款有着 30 年历史的专业图像编辑软件,代码库超过 200 万行。CLI-Anything 需要识别出"图像滤镜"、"图层管理"、"选区操作"、"颜色调整"等数百个功能模块,理解它们之间的依赖关系,找到每个功能在代码中的"开关"在哪里。 这不是简单的关键词搜索,而是深度的语义理解。 ### 📐 第二阶段:Design(设计)—— 规划命令的"城市" 当分析完成之后,CLI-Anything 进入设计阶段。这个阶段可以比作城市规划师的工作。 想象一下,你要设计一座新的城市。你已经了解了所有居民的需求(分析阶段完成的),现在你需要决定: - 城市应该划分成哪些功能区? - 每个功能区内部如何组织? - 道路网络如何设计才能让人们高效出行? - 公共服务设施放在哪里最合适? CLI-Anything 在设计阶段做的,就是为软件设计一套命令行界面的"城市布局": **命令分组(Command Groups)**:把相关的功能组织在一起。比如 GIMP 的 CLI 可能会有 `layer`(图层)、`filter`(滤镜)、`selection`(选区)、`export`(导出)等命令组。 **状态模型(State Model)**:设计如何管理软件的"记忆"。用户创建了一个项目后,后续的操作都是在同一个项目上下文中进行的——这就像城市居民的活动都在城市的整体环境中展开一样。 **输出格式(Output Formats)**:决定 CLI 如何向 AI 汇报结果。JSON 格式便于机器解析,人类可读格式便于调试,两者都要兼顾。 好的设计让复杂变得简单。想象一下,如果没有城市规划的地铁线路图,北京、上海这样的大城市将会多么混乱。CLI-Anything 的设计阶段,就是为软件功能绘制这样一张清晰的"地铁图"。 ### 🔨 第三阶段:Implement(实现)—— 锻造工具的"铁砧" 设计图纸完成之后,就轮到工匠们上场了。实现阶段是 CLI-Anything 最"重"的工程阶段——它要把设计蓝图变成真正可运行的代码。 这个阶段的产出是一个完整的 Python CLI 应用,基于 Click 库构建(Click 是 Python 世界最流行的命令行框架之一)。但 CLI-Anything 不是简单地生成一些函数调用,它要打造一个**生产级**的工具: **REPL 界面**:Read-Eval-Print Loop(读取-求值-输出循环)。这是一种交互式环境,用户可以一条命令接一条命令地操作软件,就像和软件"对话"一样。 ``` $ cli-anything-gimp Welcome to CLI-Anything GIMP v1.0.0 > project new --width 1920 --height 1080 Project "untitled" created. > layer add --name "Background" --type solid --color "#1a1a2e" Layer "Background" added. > filter apply --name "gaussian_blur" --radius 2.5 Filter applied. > export --format png --output poster.png Exported to poster.png. > ``` **JSON 输出支持**:AI 智能体需要结构化的数据。每个命令都可以加上 `--json` 参数,输出机器易于解析的格式。 **撤销/重做(Undo/Redo)**:专业软件的核心功能。CLI-Anything 生成的 CLI 也继承了这一能力,让 AI 可以在出错时回退操作。 这就像一位铁匠不仅要打出刀剑的形状,还要淬火、开刃、装柄,让它成为真正可用的武器。 ### 📋 第四阶段:Plan Tests(规划测试)—— 制定"体检表" 软件工程领域有一句名言:"没有经过测试的代码就是坏代码。"(Code that isn't tested is broken.) CLI-Anything 深谙此道。在实现完成之后,它不会急着宣称胜利,而是首先制定一套完整的"体检方案"。 测试规划阶段产出的 TEST.md 文档,就像是给即将出厂的汽车制定的检测清单: - **单元测试**:测试每一个独立的功能模块。就像检查汽车的每一个零件——引擎、轮胎、刹车、灯光——是否正常工作。 - **端到端测试(E2E)**:测试完整的用户流程。就像让汽车真正上路跑一圈,看看所有零件配合起来是否顺畅。 - **边界情况测试**:测试极端场景。就像测试汽车在最高速、最低温、最大载重下的表现。 CLI-Anything 会针对生成的 CLI 的每一个命令、每一个参数组合,设计对应的测试用例。这不是机械地生成一些简单测试,而是基于对软件功能的深度理解,设计能够验证正确性的测试场景。 ### 🧪 第五阶段:Write Tests(编写测试)—— 打造"免疫系统" 有了测试计划,接下来就是真正编写测试代码。CLI-Anything 生成的测试套件是一个多层次的"免疫系统": **第一层:单元测试** —— 使用合成数据(synthetic data)快速验证核心函数的逻辑正确性。这些测试运行速度快,可以在开发过程中频繁执行。 **第二层:E2E 测试(原生)** —— 验证生成的项目文件格式是否正确。比如生成的 ODF 文档是否符合 OpenDocument 标准?生成的 MLT XML 是否能被视频编辑器正确解析? **第三层:E2E 测试(真实后端)** —— 这是最硬核的一层。CLI-Anything 会真正调用底层软件,验证结果。 - LibreOffice 真的能把文档转换成 PDF 吗?生成的 PDF 文件头是否有正确的 `%PDF-` 魔法字节? - Blender 真的能渲染出图片吗?生成的 PNG 文件是否能正常打开? - Audacity 真的能处理音频吗?输出文件的波形是否符合预期? **第四层:CLI 子进程测试** —— 验证安装后的命令是否能在 shell 中正常工作。 截至 2026 年 3 月,CLI-Anything 已经在 16 个主流应用上运行了 **1,839 个测试用例**,实现了 **100% 通过率**。这不是一个玩具项目,而是一个经过严格验证的生产级系统。 ### 📝 第六阶段:Document(文档化)—— 编写"使用说明书" 一个好的工具,必须配上好的文档。CLI-Anything 在这一阶段会生成完整的文档: - **<SOFTWARE>.md**:针对特定软件的架构文档,解释 CLI 的设计思路、命令组织方式、状态管理模型。 - **TEST.md 更新**:记录所有测试的结果,哪些通过了,哪些失败了(虽然目标是 100% 通过),失败的原因是什么。 - **README.md**:面向用户的快速入门指南。 文档不仅是给人看的,也是给 AI 看的。在 AI 时代,文档的质量直接影响 AI 使用工具的效果。 ### 📦 第七阶段:Publish(发布)—— 走向"市场" 最后一步,CLI-Anything 会把整个项目打包成一个标准的 Python 包: - 生成 `setup.py` 配置文件 - 配置入口点(entry points),让命令可以被系统识别 - 设置好依赖关系,确保安装时自动安装所需的其他库 完成之后,用户只需要运行: ```bash cd gimp/agent-harness && pip install -e . ``` 然后就可以在任何地方使用 `cli-anything-gimp` 命令了。 这就像是把精心打造的乐器装进琴盒,贴上标签,准备好送到音乐家手中。 --- ## 🎨 从理论到实践:CLI-Anything 支持的应用帝国 CLI-Anything 不是一个停留在论文中的概念,它已经在真实世界中证明了自己的能力。截至 2026 年 3 月,它已经为 16 个主流应用生成了完整的 CLI: ### 🖼️ 创意设计与媒体制作 | 软件 | 领域 | 测试数 | 后端技术 | |------|------|--------|----------| | **GIMP** | 图像编辑 | 107 | Pillow + GEGL/Script-Fu | | **Blender** | 3D 建模与渲染 | 208 | bpy (Python API) | | **Inkscape** | 矢量图形 | 202 | 直接 SVG/XML 操作 | | **Audacity** | 音频制作 | 161 | Python wave + sox | | **Kdenlive** | 视频编辑 | 155 | MLT XML + melt 渲染器 | | **Shotcut** | 视频编辑 | 154 | 直接 MLT XML + melt | | **OBS Studio** | 直播推流 | 153 | JSON 场景 + obs-websocket | | **MuseScore** | 音乐制谱 | 56 | mscore CLI (MSCX/MusicXML) | ### 📄 生产力与办公 | 软件 | 领域 | 测试数 | 后端技术 | |------|------|--------|----------| | **LibreOffice** | 办公套件 | 158 | ODF 生成 + 无头模式 LO | | **Mubu** | 知识管理 | 96 | 本地 Mubu 数据 + 同步日志 | ### 🤖 AI 与网络基础设施 | 软件 | 领域 | 测试数 | 后端技术 | |------|------|--------|----------| | **ComfyUI** | AI 图像生成 | 70 | ComfyUI REST API | | **Ollama** | 本地 LLM 推理 | 98 | Ollama REST API | | **AdGuard Home** | 网络广告拦截 | 36 | AdGuard Home REST API | | **NotebookLM** | AI 研究助手 | 21 | NotebookLM CLI 封装 | | **AnyGen** | AI 内容生成 | 50 | AnyGen REST API | ### 📐 图表与可视化 | 软件 | 领域 | 测试数 | 后端技术 | |------|------|--------|----------| | **Draw.io** | 图表绘制 | 138 | mxGraph XML + draw.io CLI | | **Mermaid** | 图表绘制 | 10 | Mermaid 状态 + mermaid.ink 渲染器 | ### 📞 通信协作 | 软件 | 领域 | 测试数 | 后端技术 | |------|------|--------|----------| | **Zoom** | 视频会议 | 22 | Zoom REST API (OAuth2) | --- ## 🔬 为什么是 CLI?命令行的"降维优势" 你可能会有一个疑问:为什么选择 CLI 作为 AI 与软件交互的桥梁?为什么不是 GUI 自动化,或者重新设计一套专门的 API? 这是一个非常好的问题,而答案涉及到计算机科学中一个深刻的洞察:**接口的维度决定了交互的可能性。** ### ❌ GUI 自动化的"玻璃天花板" 先来看目前最常见的替代方案:GUI 自动化。它的思路很简单——让 AI 像人类一样"看"屏幕、"点"鼠标、"敲"键盘。 这听起来直观,但实际上问题重重: **脆弱性(Fragility)**:GUI 自动化依赖于截图和图像识别。如果软件更新后按钮位置移动了一点,或者主题颜色发生了变化,整个自动化流程就会崩溃。这就像用沙子建城堡——看起来宏伟,但一阵微风就能摧毁它。 **速度问题**:GUI 操作需要等待界面渲染、动画完成,每一个"点击"都有数百毫秒的延迟。当 AI 需要执行成百上千个操作时,这些延迟会累积成不可接受的时间成本。 **信息丢失**:GUI 的输出是像素,AI 需要从像素中"读出"信息。这个过程不仅慢,而且容易出错。一个进度条的百分比,对人类来说一目了然,但对图像识别算法来说,却需要复杂的光学字符识别(OCR)。 ### ❌ 专用 API 的"孤岛困境" 另一个思路是让每个软件都提供一套专门为 AI 设计的 API。这个方案的问题是:**谁来开发这些 API?** 大多数软件的开发团队已经在为功能和稳定性忙碌,很少有资源专门投入 AI 适配。即使提供了 API,覆盖率也往往有限——据统计,大多数软件的 API 只能覆盖不到 10% 的功能。 更重要的是,每个软件的 API 设计风格都不相同。AI 要学习使用 Photoshop 的 API、Blender 的 API、LibreOffice 的 API……这就像要求一个人学会十几种不同的方言,才能和不同的人交流。 ### ✅ CLI 的"通用语" 相比之下,CLI(命令行界面)具有独特的优势: **结构化与可组合性**:命令行的输入和输出都是文本,天然适合 LLM(大语言模型)处理。命令可以像乐高积木一样组合——`command1 | command2 | command3`,前一个命令的输出成为后一个命令的输入。 **轻量与通用**:不需要图形渲染,不需要窗口系统,一个 SSH 连接就能远程操作。在任何系统上都能运行,从树莓派到超级计算机。 **自描述性**:每个 CLI 命令都有 `--help` 选项,AI 可以自动发现可用的功能和参数,不需要额外学习文档。 **确定性输出**:同样的输入总是产生同样的输出,这让 AI 的行为变得可预测、可调试。 **经过验证的成功**:Claude Code 每天通过 CLI 运行数千个真实工作流,证明了这条路径的可行性。 CLI-Anything 选择的不是一条捷径,而是一条已经被时间验证过的康庄大道。 --- ## 🌟 SKILL.md:为 AI 量身定制的"使用说明书" CLI-Anything 的一个独特设计,是它会为每个生成的 CLI 配套生成一个 `SKILL.md` 文件。 这就像是给 AI 准备的一份"极简版使用说明书"——不是给人类用户看的厚厚的手册,而是专门为 AI 智能体优化的技能定义文件。 ### 📄 SKILL.md 里有什么? ```yaml --- name: cli-anything-gimp description: CLI interface for GIMP image editing software commands: - group: project description: Project-level operations subcommands: - name: new description: Create a new image project params: - width: Image width in pixels - height: Image height in pixels - name: Project name (optional) - group: layer description: Layer operations subcommands: - name: add description: Add a new layer - name: remove description: Remove a layer examples: - command: "cli-anything-gimp project new --width 1920 --height 1080" description: "Create a new 1080p project" agent_guidance: json_output: "Use --json flag for structured output" error_handling: "Check exit code; stderr contains human-readable errors" session_management: "Use REPL mode for multi-step workflows" ``` 这份文件被放在 Python 包的 `cli_anything/<software>/skills/SKILL.md` 路径下,当 AI Agent(如 Claude Code)安装了这个 CLI 包后,可以自动发现并读取它。 ### 🎯 为什么这很重要? 在 AI 时代,工具不仅仅是给人用的——它们更需要能被 AI 理解和调用。 想象一下,你是一个 AI 智能体,你的主人说:"帮我把这些照片批量调整大小,加上水印,然后导出成不同格式。" 如果没有 SKILL.md,你需要: 1. 猜测应该使用什么工具 2. 阅读厚厚的手册来理解每个命令 3. 试错来找出正确的参数组合 但有了 SKILL.md,你可以: 1. 快速扫描可用的命令组 2. 找到与"图片处理"相关的功能 3. 根据示例直接构造正确的命令 这就是 CLI-Anything 所说的"Agent-Native"(智能体原生)—— 软件不仅要能工作,还要能被 AI 智能体轻松发现和高效使用。 --- ## 🚀 真实世界的魔法:CLI-Anything 能做什么? 让我们从抽象的概念中走出来,看看 CLI-Anything 在现实世界中能创造什么价值。 ### 🎬 场景一:创意工作的自动化流水线 假设你是一位内容创作者,每周需要制作数十个视频片段。传统的工作流程是: 1. 打开视频编辑软件 2. 导入素材 3. 剪切、调色、加字幕 4. 导出不同格式的版本 5. 上传到各个平台 有了 CLI-Anything,你可以这样: ```bash # AI 智能体自动执行的工作流 for video in ./raw/*.mp4; do cli-anything-shotcut project new --template "vlog_template" cli-anything-shotcut import --source "$video" cli-anything-shotcut auto-edit --style "fast-paced" --duration 60 cli-anything-shotcut export --format mp4 --quality high --output "./output/$(basename $video)" done ``` AI 可以在你睡觉的时候,批量处理成百上千个视频。 ### 📊 场景二:数据报告的自动化生成 假设你需要每周生成一份销售报告,包含数据表格、图表和文字分析: ```bash cli-anything-libreoffice document new --template "sales_report" cli-anything-libreoffice table import --source "./data/sales.csv" --sheet "Q1 Data" cli-anything-libreoffice chart add --type "line" --data "sales_trend" --position "below_table" cli-anything-libreoffice export --format pdf --output "./reports/sales_q1.pdf" ``` 整个过程不需要打开 LibreOffice 的图形界面,AI 可以直接完成。 ### 🎵 场景三:音频处理的批量化 假设你是一位播客制作人,需要为每一期节目进行标准化处理: ```bash cli-anything-audacity batch process \ --input "./episodes/*.wav" \ --effects "normalize,noise_reduction,compressor" \ --output "./processed/" \ --format mp3 \ --bitrate 192k ``` 一段原本需要手动操作几个小时的流程,现在一行命令就能完成。 ### 🖼️ 场景四:AI 图像生成的工业化 结合 ComfyUI,AI 可以为自己创造工具: ```bash # AI 设计工作流 cli-anything-comfyui workflow create --name "product_photography" --template "studio_lighting" # AI 批量生成图像 for product in ./products/*.jpg; do cli-anything-comfyui generate \ --workflow "product_photography" \ --input "$product" \ --variations 10 \ --output "./generated/$(basename $product .jpg)/" done ``` AI 使用工具来创造更多内容,形成了一个自我增强的循环。 --- ## 🔮 未来已来:Agent-Native 软件的新纪元 CLI-Anything 的出现,标志着一个重要转折点的到来:**软件正在从"为人类设计"转向"为智能体设计"。** 这不是说人类将停止使用软件——恰恰相反,人类将通过 AI 智能体以更高效的方式使用软件。就像今天很少有人直接用汇编语言编程,而是通过高级语言和 IDE 来间接使用计算机的计算能力一样,未来的人类将通过 AI 智能体来间接使用复杂的软件工具。 ### 🌐 CLI-Hub:工具的"应用商店" 2026 年 3 月 17 日,CLI-Anything 项目推出了 CLI-Hub——一个中央注册表,用户可以在这里浏览、搜索、安装任何 CLI: ```bash # 浏览可用的 CLI cli-hub search image-editing # 安装 GIMP 的 CLI cli-hub install cli-anything-gimp # 更新到最新版本 cli-hub update cli-anything-gimp ``` 这就像智能手机的应用商店,但面向的是 AI 智能体。 ### 🤝 多平台支持:一个 CLI,到处运行 CLI-Anything 生成的 CLI 是跨平台的——无论你使用 Claude Code、OpenClaw、OpenCode、Codex、Qodercli 还是 GitHub Copilot CLI,生成的 CLI 都能工作。 这意味着: - 开发者可以选择自己喜欢的 AI 编程环境 - 生成的 CLI 可以在团队之间自由共享 - 一个统一的工具生态正在形成 ### 🛣️ 路线图:前方的风景 CLI-Anything 团队已经在规划更令人兴奋的未来: - **更多应用类别**:CAD(计算机辅助设计)、DAW(数字音频工作站)、IDE(集成开发环境)、EDA(电子设计自动化)、科学计算工具…… - **任务完成率基准测试**:建立标准化的测试套件,评估 AI 使用 CLI 完成真实任务的成功率。 - **社区贡献的 Harness**:让社区能够为内部或定制软件生成 CLI,并分享到 CLI-Hub。 - **闭源软件和 Web 服务的支持**:不仅限于开源软件,未来可能会支持通过 API 封装的方式,为闭源软件生成 CLI。 --- ## 🧠 反思:当工具成为智能的延伸 CLI-Anything 让我想起了人类进化史上的一个重要时刻:当我们的祖先第一次拿起石头作为工具时。 那不仅仅是一次简单的动作,而是智能的一次飞跃——从"只能使用身体"到"可以使用外部物体来扩展能力"。 今天的 AI 正在经历类似的飞跃。通过 CLI-Anything,AI 智能体正在获得使用人类创造的一切软件工具的能力。GIMP、Blender、LibreOffice、OBS Studio……这些凝聚了人类数十年智慧和劳动的工具,现在可以被 AI 调用、组合、自动化。 这不是 AI 取代人类,而是 AI 成为人类的"能力放大器"。 想象一下,一位独立创作者可以借助 AI + CLI-Anything,完成过去需要一个团队才能完成的工作;一位科研人员可以用自然语言描述实验,让 AI 自动操作复杂的科学软件;一位教师可以快速生成定制化的教学材料,而不需要学习每个软件的细节。 这就是 CLI-Anything 所描绘的未来:**不是人类与 AI 竞争,而是人类与 AI 协作,共同使用人类文明的工具遗产。** --- ## 📚 核心参考文献 1. **HKUDS/CLI-Anything** (2026). *CLI-Anything: Making ALL Software Agent-Native* [GitHub Repository]. Hong Kong University of Science and Technology, Data Intelligence Lab. https://github.com/HKUDS/CLI-Anything 2. **Pillitteri, P.** (2026, March 14). *CLI-Anything: How to Make Any Software Controllable by AI*. Pasquale Pillitteri's Blog. https://pasqualepillitteri.it/en/news/391/cli-anything-software-agent-native-guide 3. **Raskin, J.** (2000). *The Humane Interface: New Directions for Designing Interactive Systems*. Addison-Wesley. (关于界面设计的经典著作,提供了理解"人类设计 vs 机器友好"差异的理论基础) 4. **Kernighan, B. W., & Pike, R.** (1984). *The Unix Programming Environment*. Prentice Hall. (Unix 哲学和 CLI 设计的奠基之作,解释了为什么 CLI 是强大的工具接口) 5. **Huang, C. et al.** (2026). *Bridging the Agent-Software Gap: Automated CLI Generation for AI-Native Tool Use* [Technical Documentation]. HKUDS Lab. https://github.com/HKUDS/CLI-Anything/blob/main/cli-anything-plugin/HARNESS.md --- ## 🌌 尾声:通往未来的巴别塔 在古老的传说中,人类曾经试图建造一座通往天堂的巴别塔。上帝为了阻止他们,让人类说不同的语言,于是工程戛然而止。 今天,AI 智能体和人类软件之间,也存在着类似的"语言障碍"。 CLI-Anything 正在建造的,是一座新的巴别塔——不是为了挑战神祇,而是为了连接两个世界:人类创造的丰富软件生态,和正在崛起的智能体文明。 这座桥梁的每一块砖石,都是一行行经过测试的代码;每一级台阶,都是一个个精心设计的命令;每一个拱门,都是对"Agent-Native"理念的坚守。 当这座桥梁建成之时,AI 将不再是被困在玻璃屏幕后的囚徒,而是能够自由穿梭于人类软件世界的行者。而人类,将拥有一位真正懂工具的助手,一位能够使用我们创造的一切来帮助我们创造更多的伙伴。 这或许就是技术的终极意义:不是取代,而是增强;不是隔阂,而是连接;不是终结,而是新的开始。 --- *本文撰写于 2026 年 3 月,CLI-Anything 项目发布两周之际。这个年轻而充满活力的开源项目,正在用一行行代码书写 AI 时代的工具革命史。* --- **作者注**:感谢 HKUDS 实验室的开源精神,让这项技术能够被全世界使用。如果你对这个项目感兴趣,欢迎访问 https://github.com/HKUDS/CLI-Anything,为这座连接两个世界的桥梁添砖加瓦。 #科普 #CLI-Anything #AI-Agent #开源项目 #HKUDS #费曼风格 #技术写作

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!