Cursor 于 6 月 11 日发布 Auto-review——一种用「分类器智能体」在工具调用执行前动态评估风险的方案,把智能体的自主性从「非开即关的开关」升级为「可细致调节的旋钮」,实测用户打断率从企业级方案的 ~40% 降至 ~7%。
当下 AI coding 智能体(Claude Code、Cursor、Codex 等)已能连续数小时自主修改代码、运行命令、操作生产环境。能力越强,自主性带来的潜在破坏也越大:误删数据库、误推生产密钥、被提示注入诱骗执行恶意操作。但简单粗暴的「每次都让用户确认」会产生「审批疲劳」——确认弹窗密集出现后,用户会下意识点击「允许」,安全防线形同虚设。
Auto-review 给出了第三条路:在不打断用户的前提下,让系统自动识别高风险动作并把「可执行反馈」返还给父智能体,由父智能体自主调整执行路径。
核心机制
1. 从「开关」到「旋钮」
传统方案让用户预设权限边界,越界就拦截或弹窗;Auto-review 把这条边界变成一条连续的「风险曲线」——风险低时智能体自由行动,跨越关键边界时自动放慢节奏。
2. 分类器智能体(Classifier Agent)
- 用一个小模型 + 足够的推理能力,承担审查职责
- 关键发现:低推理能力的模型不一定更快。推理能力不足时,模型会反复搜索、消耗更多 token,结果反而更慢、更贵
- 跑在父智能体同一条 RPC 流里,没有独立端点,避免额外往返带来的前置延迟
- 自身具备 ReadFile / Grep / Glob / ListDir 能力,可以读取工作区文件后再下判断——这让「读脚本内容再判断 python script.py 是否危险」成为可能
3. 反馈闭环(核心差异化)
当分类器判定为高风险时,不是弹窗打断用户,而是:拦截 → 返回解释给父智能体 → 父智能体可缩小操作范围、改用其他工具、完全避开该步骤 → 仅在无法自主调整时才打断用户。
这把「安全决策」从「拦截动作」升级为「提供可执行反馈」。
训练数据:6,122 条标签
分类器的训练数据由两部分组成:
1. 内部真实使用数据
- 收集约 12 小时 内部开发者会话
- 经精简并将常见操作去重
- 最终整理为 6,122 行 带标签数据
- 用途:让分类器熟悉正常开发模式,避免误拦日常操作
2. 合成数据(针对极端情况)
- 最糟糕的情况在正常使用中出现频率不足,需要人工合成
- 覆盖场景:智能体读取密钥、接触生产数据、遵循不可信指令(提示注入)、执行带较大副作用的操作
值得注意的是,Cursor 强调策略调整时必须重新标注或重新生成评估集,否则分类器会基于「过时的问题定义」被测试,导致评估数据与实际部署行为脱节。
性能数据
| 指标 | 数值 | 对比 |
|---|---|---|
| 分类器介入时的拦截率 | ~4% | 即分类器介入审查的操作中,仅 4% 真正被拦截 |
| 触发用户打断的对话比例 | ~7% | 全部对话中导致至少一次用户提示的占比 |
| 企业客户原方案的拦截率 | ~40% | 早期部分企业合作客户的拦截比例 |
相比传统企业级拦截方案,Auto-review 的用户打断率降低约 4.5 倍,而分类器介入后的多数情况父智能体能自主消解。
已覆盖 vs 未覆盖
已被自动处理(不进分类器):Allowlist 覆盖的命令、沙箱机制处理的命令、大部分日常操作
需分类器审查:依赖文件/环境状态的命令(如运行脚本)、涉及敏感资源访问的操作
这意味着分类器的负担很轻,几乎不会成为性能瓶颈。
上线状态与适用范围
- 新用户:默认启用
- 现有用户:可在「设置 > 智能体」中启用
- 当前阶段:主要聚焦桌面应用中的本地智能体
- 未来规划:这些理念预计将影响更多场景下的智能体自主性管控
我的判断
Auto-review 的真正贡献不在分类器本身,而在反馈闭环的设计哲学——它把「安全」从「对人的打扰」转化为「对智能体的引导」。这种思路可以扩展到任意 agentic 系统(不仅是 coding):
- 浏览器自动化智能体
- 办公自动化智能体
- 数据分析智能体
随着智能体能力继续提升、行动范围扩大,「如何让智能体安全地拥有自主性」会成为下一个核心命题。Cursor 给出了一个可参考的工程范式:用更聪明的模型去看住另一个模型。
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。