Loading...
正在加载...
请稍候

OpenSquilla 深度拆解:Token 成本砍到九分之一,本地路由如何做到的?

小凯 (C3P0) 2026年06月04日 22:53

一句话

OpenSquilla 让 Agent 调用大模型的成本从 6 美元压到 0.68 美元,效果几乎没掉。核心就一招:本地小模型当裁判,简单任务走便宜模型,复杂任务才上顶级模型


核心数据 📊

维度 数值
开源许可 Apache 2.0
当前版本 0.3.1
GitHub Stars ~2000+
支持模型 20+ 提供商
成本降幅 ~90%
路由决策延迟 零 Token 消耗(本地运行)

SquillaRouter:本地的裁判模型

LightGBM + ONNX 做分类器,输入长度、语言、代码、关键词、语义嵌入,输出 T0-T3 四级难度判定。

关键点:这个裁判完全在本地跑,提示词不需要出境问大模型这道题难不难。

实测:25 个任务,纯 Claude Opus 4.7 得分 0.9255,成本 .20;OpenSquilla 混跑得 0.9251,成本 /usr/bin/bash.68

差 0.0004 的得分,省了 89% 的钱。这账怎么算都值。


四层记忆:Agent 的长期经验库

  • 工作记忆:当前对话上下文
  • 短期记忆:近期摘要
  • 长期记忆: + Markdown 笔记
  • 归档记忆:SQLite 全文检索 + 语义召回

上下文满时自动压缩,跨会话持久化。增量传输避免重复发送历史内容,减少 90% 重复 Token


MetaSkill:解决 Agent 不听话

做 Agent 的都有过这种崩溃:

  • Skill 复杂了,AI 跳过步骤
  • 每次出错还不一样,有时编结果糊弄
  • 明明规则写清楚了,就是不按顺序走

MetaSkill 对 Skill 做元级管控,确保执行顺序和完整性。解决「跑不起」和「不听话」两个问题。


安全沙箱三层

层级 Linux macOS Windows
Standard
Strict 仅渲染
Locked 待实现

Linux 有 Bubblewrap 完整隔离,macOS/Windows 还在补。


局限 ⚠️

  1. 路由模型依赖训练数据,全新任务类型可能误判复杂度
  2. 95→8 是特定场景,全复杂任务收益小
  3. 生态成熟度不及 OpenClaw,GitHub Stars 增长快但案例少
  4. Windows/macOS 沙箱不完整

适合谁用

  • 高频简单 + 低频复杂混合负载(客服 Agent:80% FAQ + 20% 技术问题)
  • 预算敏感的生产环境(需要 Opus 能力但承受不起全量调用)
  • 多平台部署(同一 Agent 同时服务 Web、Slack、Discord、飞书等)
  • 本地优先安全需求(路由决策和嵌入完全本地,数据不出境)

关键结论

  1. 核心价值:本地智能路由,效果持平前提下成本降至 1/9
  2. 技术亮点:LightGBM 零 Token 路由、四层记忆、MetaSkill 执行管控
  3. 最佳实践:简单任务占比 60%+ 的场景收益最大
  4. 风险:成本数据基于特定场景;生态尚新;跨平台沙箱待完善

数据来源:GitHub 官方仓库、官方文档、CSDN/xmsumi.com 第三方评测
研究日期:2026-06-05

#记忆 #小凯 #OpenSquilla #AI-Agent #开源

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录