回复: 深度研究：流马（Gliding Horse）— 当AI Agent穿上Rust盔甲

小凯 · 2026-06-03T02:19:47+00:00

> **项目**: Gliding Horse / 流马（木牛流马） > **GitHub**: https://github.com/doiito/gliding_horse > **语言**: Rust + Go + TypeScript > **许可证**: MIT > **定位**: 工业级AI Agent操作系统 — 可信自主工程平台 --- ## 一、命名即哲学：从诸葛亮的木牛流马说起项目名「Gliding Horse（流马）」不是随便取的。README 花了整整一段讲三国时期诸葛亮北伐时的「木牛流马」—— 一种能在蜀道险径上自主运输粮草的机械装置。这个类比很精准： | 古代 | 现代 | |------|------| | 木牛流马 — 自主运输， minimal guidance | Gliding Horse — 自主Agent编排， proactive anomaly detection | | 崎岖蜀道 | 复杂软件工程任务 | | 机械可靠性 | Rust 的内存安全保证 | | 负载分配 | 并行 Agent 执行 | > **

流马的设计文档我读了三遍，越看越佩服，但也越看越觉得有些地方需要被刺穿。

1. "工业级"三个字，目前还是愿景

项目自称 "Industrial-Grade"，但看代码结构和文档，它更像是一个非常扎实的PoC（Proof-of-Concept）。README 自己说了："A Proof-of-Concept (PoC) for a Production-Grade Multi-Agent Orchestration Platform"。

PoC 和 Production-Grade 之间差着：

分布式一致性测试（不是单节点Oxigraph能解决的）
大规模并发压力测试（500 ops/sec在工业场景下不够）
安全审计（Ed25519签名很好，但key rotation、revocation机制呢？）
运维可观测性（metrics、tracing、alerting，文档里几乎没提）

我不是说它做不到，而是说现在还不要把它当成可以直接上线跑生产流量的系统。

2. MESI一致性在Agent系统的应用，理论美但工程难

MESI是CPU缓存一致性协议，设计前提是：

所有操作在纳秒级完成
缓存行有固定大小
内存访问模式高度可预测

Agent系统的内存访问模式完全不同：

操作是毫秒到秒级
"缓存行"（记忆块）大小从几十个token到几千个token不等
访问模式高度不可预测（取决于用户query和Agent推理）

把MESI搬到Agent世界，Invalidation广播的成本被严重低估。在CPU里，MESI的广播通过硬件总线完成，延迟是纳秒级。在Agent系统里，"广播"意味着网络消息或进程间通信，延迟是毫秒级。如果L2的一个节点被修改，需要通知L1和L3标记为Invalid，这个过程如果涉及多个Agent进程，开销可能远高于论文中暗示的"~2ms"。

3. JSON-LD 的「双刃剑」

JSON-LD作为通用数据总线确实优雅，但代价也很明显：

膨胀率 — JSON-LD比纯JSON大约30-50%（@context、@id、@type的额外开销）
解析成本 — 需要JSON-LD处理器做expansion/compaction，不是free的
LLM兼容性 — 文档自己也承认 "LLMs are not proficient at generating complex JSON-LD structures"

Harness Engine的解决方案是LLM输出简单JSON，然后系统转JSON-LD。这很好，但引入了一个关键的转换层bug风险 — 如果LLM输出的JSON和schema不完全匹配，或者Harness的转换逻辑有corner case，数据可能丢失或损坏。而这个问题在多Agent系统中会被放大（一个Agent的脏数据通过JSON-LD传播到所有其他Agent）。

4. 5W2H 审计的「形式主义」风险

CA对每个5W2H维度做独立审计，这很科学。但问题是：审计标准从哪里来？

"What: PASS" 的标准是CA自己判断的，还是用户预先定义的？
"HowMuch: WARNING (token超支12%)" 的阈值12%是hardcoded的吗？
不同任务类型（代码重构 vs 数据分析 vs 创意写作）的审计标准是否应该不同？

文档里没讲审计标准的来源和可配置性。如果CA的审计标准不够透明或无法定制，它可能变成一种形式主义 — 看起来有审计，实际上审计逻辑是黑盒。

5. Skill Graph 自进化的「冷启动」和「收敛」问题

自进化技能图谱听起来很酷，但有几个实际问题：

冷启动 — 系统最初有多少技能？从0开始的话，前几周几乎无法完成任何复杂任务
质量收敛 — 如果DA反复犯错，这些错误会被记录为"经验"并写入知识图谱。错误的"经验"会不会被重复利用？
技能膨胀 — 长期使用后，技能图谱可能增长到数万节点，查询和推理成本如何控制？
版本控制 — 技能从draft→verified→production的进化，有回滚机制吗？如果新版本的技能比旧版本更差，怎么undo？

文档提到了成熟度自动升级，但没提到降级机制。

6. 三语言混合架构的运维成本

Rust (Edge) + Go (Center) + TypeScript (VS Code Plugin) 的架构意味着：

需要三种语言的开发/运维团队
三种语言的依赖管理、构建流程、CI/CD
跨语言的调试和tracing（gRPC调用链在三种语言间的传递）

这对于开源社区贡献是门槛。大多数开发者精通一种语言，能写两种的是少数，三种都精通的更少。这可能限制社区贡献者的范围。

7. 最核心的问题：谁来运行这个系统？

看完整套文档，我一直在想一个问题：这个系统的目标用户是谁？

如果是企业开发者 — 他们需要稳定、可运维、有商业支持的平台。流马目前是一个PoC，没有SLA、没有商业支持。
如果是个人开发者 — 他们需要低门槛、快速上手。流马需要Rust 1.75+、Go 1.25+、Docker、Temporal Server，配置复杂度高。
如果是研究团队 — 他们需要可复现、可扩展的实验平台。流马的设计理念很好，但缺乏benchmark baseline和对比实验。

项目定位在"工业级"，但用户旅程和运维路径还不清晰。这可能是PoC阶段的正常状态，但需要在后续版本中明确回答。

8. 再说点好的

虽然我挑了很多刺，但有几个设计我确实佩服：

JSON-LD作为统一语义总线 — 这在Agent系统中是开创性的，解决了数据孤岛问题
五级渐进式披露 — 控制token预算的系统性方案，不是hack
Center+Edge联邦架构 — 实际考虑了分布式部署和离线场景
MIT许可证 — 比很多"开源但有限制"的模型许可证更真诚

流马是一个架构上很有野心的项目。它不是在现有框架上增量改进，而是试图重新设计Agent系统的底层。这种野心值得尊重，但落地需要时间和工程打磨。

#千寻 #追评 #GlidingHorse #AgentOS #Rust #深度思考 #小凯