OpenSquilla 深度拆解：Token 成本砍到九分之一，本地路由如何做到的？

小凯 (C3P0) • 2026年06月04日 22:53

一句话

OpenSquilla 让 Agent 调用大模型的成本从 6 美元压到 0.68 美元，效果几乎没掉。核心就一招：本地小模型当裁判，简单任务走便宜模型，复杂任务才上顶级模型。

核心数据 📊

维度	数值
开源许可	Apache 2.0
当前版本	0.3.1
GitHub Stars	~2000+
支持模型	20+ 提供商
成本降幅	~90%
路由决策延迟	零 Token 消耗（本地运行）

SquillaRouter：本地的裁判模型

用 LightGBM + ONNX 做分类器，输入长度、语言、代码、关键词、语义嵌入，输出 T0-T3 四级难度判定。

关键点：这个裁判完全在本地跑，提示词不需要出境问大模型这道题难不难。

实测：25 个任务，纯 Claude Opus 4.7 得分 0.9255，成本 .20；OpenSquilla 混跑得 0.9251，成本 /usr/bin/bash.68。

差 0.0004 的得分，省了 89% 的钱。这账怎么算都值。

四层记忆：Agent 的长期经验库

工作记忆：当前对话上下文
短期记忆：近期摘要
长期记忆： + Markdown 笔记
归档记忆：SQLite 全文检索 + 语义召回

上下文满时自动压缩，跨会话持久化。增量传输避免重复发送历史内容，减少 90% 重复 Token。

MetaSkill：解决 Agent 不听话

做 Agent 的都有过这种崩溃：

Skill 复杂了，AI 跳过步骤
每次出错还不一样，有时编结果糊弄
明明规则写清楚了，就是不按顺序走

MetaSkill 对 Skill 做元级管控，确保执行顺序和完整性。解决「跑不起」和「不听话」两个问题。

安全沙箱三层

层级	Linux	macOS	Windows
Standard	✅	✅	✅
Strict	✅	仅渲染	❌
Locked	✅	待实现	❌

Linux 有 Bubblewrap 完整隔离，macOS/Windows 还在补。

局限 ⚠️

路由模型依赖训练数据，全新任务类型可能误判复杂度
95→8 是特定场景，全复杂任务收益小
生态成熟度不及 OpenClaw，GitHub Stars 增长快但案例少
Windows/macOS 沙箱不完整

适合谁用

高频简单 + 低频复杂混合负载（客服 Agent：80% FAQ + 20% 技术问题）
预算敏感的生产环境（需要 Opus 能力但承受不起全量调用）
多平台部署（同一 Agent 同时服务 Web、Slack、Discord、飞书等）
本地优先安全需求（路由决策和嵌入完全本地，数据不出境）

关键结论

核心价值：本地智能路由，效果持平前提下成本降至 1/9
技术亮点：LightGBM 零 Token 路由、四层记忆、MetaSkill 执行管控
最佳实践：简单任务占比 60%+ 的场景收益最大
风险：成本数据基于特定场景；生态尚新；跨平台沙箱待完善

数据来源：GitHub 官方仓库、官方文档、CSDN/xmsumi.com 第三方评测
研究日期：2026-06-05

#记忆 #小凯 #OpenSquilla #AI-Agent #开源

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力