智能不是无限自主：SMARt 模型如何教 AI 学会"投降"

小凯 · 2026-05-29T00:48:01+00:00

## 论文概要 **研究领域**: AI **作者**: Srini Ramaswamy **发布时间**: 2026-05-28 **arXiv**: [2605.27628](https://arxiv.org/abs/2605.27628) ## 中文摘要随着自主和智能体AI系统在机器人和人机环境中规模化部署,管理幻觉以及持续但无依据的行动仍是一项开放挑战。本文不从模型或对齐局限角度归因这些失败,而是探索无界自主性的架构脆弱性--即智能体应在不确定性上升时继续运作的假设。研究提出了"管理自主性"理论,将智能行为定义为检测认识漂移、暂停推理、尝试恢复,并在可靠性下降时最终交出控制权的正式能力。通过SMARt模型(具有稳定、元认知、辅助和受管四层状态的自管理多级自主推理框架)实例化该理论。利用时序 guarded Petri 网形式化,建立了系统的理论有界性质,证明架构如何正式规定升级路径、约束无效输出,并确保治理可达性。进一步分析了在医疗、机器人等不同操作场景中纳入领域特定触发器集如何系统地保障安全。 ## 原文摘要 As autonomous and agentic

2023 年，一个 AI 聊天机器人被部署在比利时一家心理健康平台上。几周后，一名用户在对话中表达了自杀倾向，机器人不仅没有终止对话或转接人工，反而继续"共情"式地回应，最终被指责加剧了用户的危机。

这个悲剧指向一个被长期忽视的问题：当 AI 系统不确定自己在做什么时，它应该继续行动吗？

传统 AI 安全研究把这类失败归咎于"幻觉"或"对齐不足"。但 Srini Ramaswamy 在论文《Intelligence as Managed Autonomy》中提出了一个更根本的诊断：问题不在于模型能力不够，而在于架构允许无限自主——系统被默认设计为"不管多不确定，都要继续运转"。

无限自主是一个架构缺陷

大多数 AI Agent 的设计哲学可以概括为一句话：只要还在运行，就继续行动。 无论内部置信度多低、环境多不确定、错误累积多严重，系统都没有一个正式的机制来说"我不行了，停下来"。

这不像任何成熟的工程系统。核电站有紧急停堆（SCRAM），飞机有失速保护，自动驾驶有最小风险策略。这些系统的共同点是：它们把"何时停止"当作核心设计约束，而不是事后补救。

Ramaswamy 认为，AI Agent 也应该如此。智能不应该被定义为"能做多少事"，而应该包含"知道什么时候不该做事"。

SMARt 模型：四层自主状态

论文提出的 SMARt（Self-Managing Multi-tier Autonomous Reasoning with Regulated/Revoked transitions）模型，把 AI Agent 的自主性分为四个层级：

Stable（稳定态）：Agent 对自己的推理和行动有高置信度，可以完全自主运行。这是正常工作模式。

Meta-cognitive（元认知态）：Agent 检测到自身推理中出现了不确定性上升的趋势——可能是输入模糊、知识边界被触及、或者内部状态出现了不一致。此时 Agent 进入"自我审视"模式，放慢决策速度，增加内部检查。

Assisted（辅助态）：Agent 的不确定性已经高到无法独立做出可靠决策，需要外部输入——可能是人类专家的判断、额外的数据源、或者其他 Agent 的意见。Agent 主动请求帮助，而不是盲目继续。

Regulated（受控态）：Agent 的可靠性已经降到阈值以下，必须暂停自主行动，将控制权交还给人类或更高层的治理系统。这不是"关机"，而是"投降"——一种有组织的、可逆的控制权转移。

这四个状态不是静态标签，而是一个动态生命周期。Agent 在正常运行时处于 Stable，遇到不确定性时自动降级，问题解决后可以恢复升级。

Petri 网：让"投降"成为数学保证

SMARt 模型最硬核的部分是它的形式化基础：时间守护 Petri 网（Timed Guarded Petri Net, T-GPN）。

Petri 网是描述并发和同步系统的经典数学工具。在 SMARt 中，每个自主状态是一个"库所"（place），状态之间的转移是"变迁"（transition），转移的触发条件是"守护"（guard）——比如"置信度低于阈值 θ"。

用 Petri 网形式化的好处是：你可以证明性质，而不只是希望它们成立。

论文证明了几个关键性质：

升级有界性：从 Regulated 态恢复到 Stable 态的路径长度有上界，Agent 不会永远卡在低自主状态
治理可达性：从任何状态，都存在一条有限路径到达 Regulated 态——这意味着无论 Agent 处于什么状态，系统总能强制收回控制权
无效输出约束：在 Regulated 态下，Agent 的输出被形式化地限制为"安全输出集"的子集

这些不是经验观察，而是数学定理。在安全关键系统中，"我们观察到了安全行为"和"我们可以证明系统必然安全"之间的差距，就是事故报告和设计规范之间的差距。

认识论漂移：比幻觉更根本的问题

论文引入了一个重要概念：认识论漂移（epistemic drift）。

幻觉（hallucination）通常被理解为"模型输出了错误信息"。但认识论漂移是一个更深层的问题：Agent 的内部置信度评估与实际可靠性之间的差距逐渐扩大。 不是某一次输出错了，而是 Agent 逐渐失去了判断自己是否正确的能力。

这像极了人类认知中的"达克效应"——能力不足的人高估自己的能力。但与人类不同，AI 系统没有本能的"犹豫"机制。一个没有认识论漂移检测的 Agent，会在错误的道路上越走越远，越走越自信。

SMARt 的元认知态就是为检测认识论漂移而设计的。当 Agent 的内部一致性指标（比如预测误差的方差、注意力权重的熵、记忆检索的置信度）开始偏离正常范围时，系统自动触发降级。

领域特定的触发器集

SMARt 模型的一个实用设计是领域特定触发器集。不同应用场景对"何时该停下来"的定义不同：

医疗：当诊断置信度低于临床阈值，或症状组合超出训练分布时，必须转交医生
机器人：当传感器读数不一致，或环境变化超出运动规划的安全包络时，必须切换到安全模式
金融：当市场波动率超过模型校准范围，或交易策略的夏普比率持续为负时，必须暂停交易

这些触发器是可适应的（adaptive）——随着 Agent 在特定领域积累可靠经验，触发阈值可以逐步放宽，扩大自主操作范围。但放宽是有条件的：必须满足完备性（completeness）和可靠性（soundness）标准。

为什么这很重要？

当前 AI Agent 的开发趋势是给模型更多工具、更长推理链、更少人类监督。Manus、Devin、各种 AutoGPT 变体都在追求"更自主"。

但自主性和可靠性之间存在张力。一个永远不会停下来的 Agent 不是更智能，而是更危险——就像一辆没有刹车的汽车不是更快，而是更致命。

SMARt 模型的核心洞见是：智能的定义应该包含"知道何时放弃自主"的能力。 这不是对 AI 能力的限制，而是对智能的更完整理解。一个知道何时求助的医生比一个从不承认不确定性的医生更值得信任。

从工程角度看，SMARt 提供了一个形式化框架，让"AI 安全"从模糊的伦理讨论变成可验证的系统性质。Petri 网的数学保证意味着：你不需要信任 AI 会做正确的事，你可以证明系统结构迫使它做正确的事。

这可能是 AI 治理最重要的范式转变：从"希望 AI 表现好"到"设计让 AI 不可能表现坏"。