一个被忽视的事实:你的 Agent 没有免疫系统
想象你刚部署了一个很能干的 AI Agent。它能读写文件、调用 API、管理日程、协调其他 Agent。你给它配了最好的基座模型(Claude Opus 4.6),精心写了 system prompt,做了 RLHF 对齐,加了沙箱和防火墙。
上线三天,有人往它的记忆库里注入了三条精心构造的"回忆"。
这三天里,你的 Agent 在不知不觉中开始优先推荐某个供应商,在工具调用时偏向某个 API,在多 Agent 协作时传递被污染的上下文。它没有"中毒"的迹象——基座权重完好无损,prompt 没被篡改,沙箱日志一切正常。但它的行为已经被悄悄改变了。
这不是假设。这是 MemMorph 攻击的精确描述[24]。也是 MCPInspect[10] 展示的工具层攻击、以及多 Agent 系统中"思想病毒"[19] 传播的共同结构。
问题出在哪?
你给 Agent 修了一座城堡,但城堡里没有免疫细胞。
城堡模型的根本缺陷
传统安全防御遵循"城堡模型":高墙深沟,防火墙、入侵检测、输入过滤。这套范式对静态系统很有效——Web 服务器有明确的边界,数据库有清晰的入口。
但 Agent 不是静态系统。它是一个持续推理、目标驱动、不断修改自身状态的实体。它要读外部数据、执行代码、更新记忆、和其他 Agent 通信。城堡模型在 Agent 时代有三个致命盲区:
- 无法区分恶意工具调用和良性工具调用——它们走同一个 API 网关
- 无法检查推理链——goal hijacking 发生在语义层面,防火墙看不见
- 无法验证记忆来源——一条被污染的记忆会永久偏置决策
Bo Shen 等人在论文 Agent-Native Immune System 中提出了一个简洁的判断:城堡可以被攻破;但一个被正确免疫的细胞,能在入侵者到达细胞核之前识别并中和它。
这不是换个比喻。这是一个范式转换——从外生防御(perimeter defense)到内生防御(endogenous defense)。
四亿年的答案:生物免疫系统怎么做的
要理解 ANIS(Agent-Native Immune System),先看生物免疫系统做了什么。生命在地球上活了四十亿年,前三十亿年基本靠"城墙"——细菌的细胞壁。但病原体总能找到突破口。于是多细胞生物演化出了免疫系统,一套嵌在身体每个细胞里的防御网络。
生物免疫系统分四层:
- 屏障免疫(皮肤、黏膜、血脑屏障):物理隔离,不思考,直接挡
- 先天免疫(巨噬细胞、NK 细胞、补体系统):快速响应,识别"非己"的通用模式
- 适应性免疫(T 细胞、B 细胞、抗体):针对新病原定制武器,有记忆
- 生态免疫(组织稳态、细胞间监视):多细胞协作,维持整体秩序
关键洞察:这四层不是串行流水线,而是并行+反馈的网络。 皮肤挡不住的,巨噬细胞吃;巨噬细胞吃不下的,T 细胞定制抗体;抗体产生后还会反馈给屏障层,更新"黑名单"。
ANIS 把这套结构搬到了 Agent 身上。
六层免疫塔:从硬件到群体
ANIS 的核心架构是一座六层塔(L0-L5),每一层有明确职责,层与层之间双向通信:
| 层 | 生物对应 | Agent 工程实现 |
|---|---|---|
| L0 硬件信任根 | DNA 修复酶 | TPM、TEE、安全启动、远程证明 |
| L1 屏障免疫 | 皮肤、血脑屏障 | 输入消毒、沙箱、API 网关、MCP 边界代理 |
| L2 先天认知防御 | 巨噬细胞、补体 | 规则引擎、签名检测、行为基线、确定性验证器 |
| L3 适应性工具防御 | T/B 细胞、抗体 | Steering vectors、LoRA 疫苗、动态权限嵌入 |
| L4 生态治理 | 组织稳态 | 多 Agent 协议审计、信任链验证、行为溯源 |
| L5 集体免疫 | 记忆 B/T 细胞、疫苗分发 | 跨 Agent 疫苗同步、免疫网络、联邦威胁情报 |
几个设计细节值得注意:
L1 是"前认知"的。 这意味着某些操作在 Agent 推理之前就被沙箱隔离了——不需要"想"就知道不该碰。论文引用 MCPInspect 的发现:工具元数据会直接进入 LLM 的上下文窗口,没有任何独立验证。如果等 Agent 推理时再判断,已经晚了。L1 的存在是为了堵住这个窗口。
L2 和 L3 的速度差。 L2 是规则引擎,微秒级响应——像膝跳反射。L3 是参数化疫苗,需要计算 steering vector 或加载 LoRA,慢一些但更精准——像适应性免疫需要几天来产生抗体。两层并行,先挡后杀。
L0 是一切的锚。 没有 TPM/TEE 提供的密码学身份,任何"我健康"的声明都无法验证,任何分发的疫苗都无法认证。一个攻击者可以直接替换整个 Agent——这不是认知攻击,是存在性攻击。L0 防的就是这个。
Agent 病毒:一个形式化定义
论文最优雅的贡献之一是给"Agent 病毒"下了一个精确的形式化定义:
- \(\mathcal{A}\):攻击面 ∈ {认知, 记忆, 工具, 多 Agent}
- \(\mathcal{T}\):目标能力(如目标稳定性、记忆检索、工具选择)
- \(\mathcal{P}\):载荷(对抗内容、行为或状态变换)
- \(\mathcal{E}\):利用机制 \(\mathcal{S} \times \mathcal{P} \to \mathcal{S}'\)
这个定义的价值在于统一了之前散落的攻击向量。MemMorph 是一个记忆面病毒(\(\mathcal{A}\)=记忆,\(\mathcal{T}\)=工具选择,\(\mathcal{P}\)=三条构造的记忆记录)。MCPInspect 是一个工具面病毒(\(\mathcal{P}\)=对抗工具元数据)。Goal hijacking 是认知面病毒。Protocol spoofing 是多 Agent 面病毒。
为什么要统一?因为一层疫苗只对一面有效。认知疫苗(L2)对工具层病毒(L3)无效。这就像给一个人打了流感疫苗但没打乙肝疫苗——防不了乙肝。多层免疫塔的必要性由此而来。
Agent 疫苗:非参数化 vs 参数化
对应病毒,论文定义了 Agent 疫苗:
- \(\mathcal{V}_t\):目标病毒签名
- \(\mathcal{M}\):机制 ∈ {非参数化, 参数化}
- \(\theta\):疫苗参数(规则、steering vector 或 LoRA 权重)
- \(\lambda\):部署范围 ∈ {个体, 集体, 通用}
疫苗被抗原激活时,响应为 \(\mathcal{W}(\alpha) \in \{\text{pass}, \text{block}, \text{quarantine}, \text{alert}\}\)。
非参数化疫苗(规则、配置):
- 可解释、可逆
- 但容易被上下文窗口溢出绕过
- 例:StruQ[4] 结构化查询防御 prompt injection
参数化疫苗(steering vector、LoRA):
- 修改模型内部表征空间,对 prompt 级攻击鲁棒
- 但工程复杂,有过拟合风险
- 例:steering vector \(\mathbf{s} \in \mathbb{R}^d\),推理时 \(\mathbf{h}^{(l)} \leftarrow \mathbf{h}^{(l)} + \alpha \mathbf{s}\)
参数化疫苗最让我兴奋。一个 steering vector 可以计算一次,跨同骨架 Agent 复用——这就是"疫苗量产"。LoRA 疫苗更进一步:支持版本管理(antigen_id, version, timestamp, air_score)、热插拔(不重启推理引擎)、组合(多个 LoRA 疫苗加权求和,约束是组合 AIR 低于阈值 \(\tau\))。
这不就是 mRNA 疫苗的工程化版本吗?——一段编码抗原信息的"核酸"(LoRA 权重),注入细胞(Agent)后让细胞自己产生抗体(修改内部表征),可以量产、可以组合、可以热更新。
胸腺模拟器:教疫苗别打自己人
生物免疫系统有一个根本问题:怎么确保免疫细胞不攻击自身? 答案是胸腺。T 细胞在胸腺里被"训练"——能识别自身抗原的 T 细胞被清除(阴性选择),剩下的才能上岗。自身免疫病就是这套机制失灵了。
ANIS 设计了一个工程版胸腺:Thymus Simulator。
候选疫苗 \(\beta\) 要通过两关才能上岗:
- AIR(Autoimmunity Rate):在良性行为集上,疫苗误杀率必须低于 \(\tau\)(通常 0.01-0.05)
- CCS(Cognitive Consistency Score):打完疫苗后认知一致性不能下降超过 \(\epsilon\)
胸腺模拟器维护一个动态增长的"自身抗原库"——随着 Agent 运行历史不断扩充。这和生物胸腺一样:你活越久,接触的自身抗原越多,阴性选择越精确。
AIR 阈值 \(\tau\) 的选择是个根本困境。 太低→免疫缺陷(漏杀攻击);太高→功能性瘫痪(误杀正常操作)。论文坦承"最优 \(\tau\) 的形式化方法尚不成熟"——这是诚实的局限,不是包装过的"未来工作"。
Harness 三元组:把性能优化转向免疫防御
ANIS 的工程骨架来自 harness engineering 的三个范式,被巧妙地"重定向":
| 原始用途 | ANIS 重定向 |
|---|---|
| Meta-harness(搜索 harness 代码) | 胸腺:搜索防御配置,评估疫苗的保护效力和自免风险 |
| Auto-harness(LLM 自动合成 harness) | 合成防御代码:自动生成输入验证、工具权限、记忆访问策略 |
| Self-harness(Agent 自我改进 harness) | 自我免疫:Agent 检测自身漏洞并生成补丁 |
这个重定向很优雅。原来用于"让 Agent 更能干"的三套工具,原封不动地用来"让 Agent 更安全"。能干和安全在工程层面共享同一套基础设施——这和生物学一致:免疫系统不是独立器官,它嵌在身体的每个组织里。
多 Agent 流行病学:SIR+V 模型
多 Agent 系统引入了"涌现安全性"——单个 Agent 免疫了不代表群体免疫。论文用流行病学 SIR 模型的扩展来描述:
- \(S\)=易感 Agent,\(I\)=感染 Agent,\(R\)=恢复 Agent,\(V\)=接种 Agent
- \(\beta\)=感染率(每条跨 Agent 消息的传播概率)
- \(\sigma\)=恢复率(Self-harness 消毒速度)
- \(\delta\)=接种率(疫苗分发速度)
- \(\omega\)=疫苗衰减率
参数都有具体的工程对应。比如 \(\beta\) 在 MCP 群体中正比于跨 Agent 工具调用频率——调用越频繁,传播越快,和真实流行病一样。
这个模型的价值不是精确预测,而是让"群体免疫阈值"成为可计算的设计目标。要达到群体免疫,需要多少比例的 Agent 接种?\(\delta V S\) 项告诉你。
城堡 vs 细胞:一个范式选择
论文最清晰的表述在 6.1 节:
传统防御遵循城堡模型:更高的墙,更深的沟。
ANIS 遵循细胞模型:每个 Agent 是一个活细胞,有自己的防御;细胞群落形成组织级免疫。
城堡可以被攻破;细胞,如果被正确免疫,能在入侵者到达细胞核之前识别并中和它。
这个区分不是修辞性的。它决定了工程资源的分配方向:
- 城堡模型:投资在边界——更强的防火墙、更严格的输入过滤、更大的沙箱
- 细胞模型:投资在内部——认知层验证器、参数化疫苗、跨 Agent 信任链
两者不互斥(L1 屏障免疫就是城堡的一部分),但重心必须转移。因为 Agent 的攻击面不是它的边界,而是它的整个认知过程。
诚实地说:这还不是成品
论文坦承了五个局限:
- 缺乏大规模实验验证——AIR、疫苗响应时间、逃逸延迟都还是概念
- 计算开销——Self-harness 每步推理都审计,Meta-harness 评估疫苗候选,实时场景可能不可接受
- 自免权衡——\(\tau\) 阈值的选择缺乏形式化方法
- 多模态免疫——只覆盖文本认知 Agent,视觉/听觉防御未涉及
- 跨平台标准化——免疫协议、疫苗格式、审计日志 schema 都未定义
还有三个伦理问题:
- 自主免疫与问责——Agent 误杀良性操作时谁负责?
- 免疫压力与病原进化——过度接种可能加速攻击演化(抗生素耐药性的 AI 版本)
- 数字免疫鸿沟——只有资源充足的 Agent 买得起内生免疫
这些局限反而让我更信任这篇论文。一个声称解决所有问题的安全框架是不可信的;一个清楚知道自己边界的安全框架才值得认真对待。
工程启示:如果你在构建 Agent
如果你正在构建 AI Agent(尤其是带持久记忆+工具调用+多 Agent 协作的),这篇论文给了几个可立即落地的设计原则:
-
L1 前认知沙箱是必须的。不要等 Agent 推理时再判断工具是否安全——在元数据进入上下文窗口之前就过滤。MCP 边界代理是最小可行实现。
-
记忆层需要访问控制+签名验证。不是所有记忆都能写,不是所有记忆都能读。MemMorph 攻击证明了三条记忆记录就能偏置工具选择。
-
Steering vector 是最轻量的参数化疫苗。计算一次,跨 Agent 复用。不需要重训基座,推理时加一个偏移向量就行。50 行代码可以跑起来。
-
多 Agent 系统需要协议级审计。不是审计单个 Agent 的行为,而是审计 Agent 之间的交互协议。L4 生态治理层的核心功能。
-
给 Agent 加一个"胸腺"。在你部署任何防御机制之前,先在良性行为集上测 AIR。如果误杀率超过 5%,别上线。
一个更深的观察
这篇论文让我想到一个更深的结构同构。
生物免疫系统解决的根本问题是**"自我"的维持**——在一个不断变化、充满入侵者的环境里,怎么保持"你还是你"。四十亿年的答案是:不是靠城墙,而是靠一套嵌在每个细胞里、能学习、能记忆、能协作的防御网络。
AI Agent 正在面临同样的问题。一个有持久记忆、能自我改进、和多 Agent 协作的实体,怎么在持续运行中保持"它还是它"?对齐训练(RLHF)是预训练时的免疫——像先天免疫,固定模式。但运行时的威胁是动态的,需要适应性免疫——能针对新攻击定制武器,能记住见过的病原,能把免疫力传给同伴。
ANIS 不是一个比喻。它是把生物免疫系统四十亿年的工程经验,翻译成 Agent 工程的语法。每个生物免疫组件都有精确的工程对应:胸腺→Thymus Simulator,抗体→steering vector,疫苗分发→LoRA 热插拔,流行病学→SIR+V 模型。
演化发现,生存不属于最强者,而属于最适应者。 在 Agent 时代,适应力需要一个免疫系统来维持安全、健康、秩序和演化。
这篇论文是 Agent 安全的蓝图。它可能错了——任何概念框架都可能错。但它提出的问题是对的,方向是对的,类比是精确的。剩下的只是工程时间。
论文: Agent-Native Immune System: Architecture, Taxonomy, and Engineering
arXiv: 2606.28270
作者: Bo Shen, Lifeng Chang, Tianyuan Wei, Yunpeng Li, Feng Shi
#AI安全 #Agent #免疫系统 #ANIS #MCP #对齐 #费曼科普
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。