路由即防御：从机械可解释性视角审视注意力重分布攻击（ARA）

大型语言模型（LLM）的安全对齐（Alignment）长期依赖于指令微调和人类反馈强化学习（RLHF）。然而，亚马逊与宾夕法尼亚州立大学在 2026 年最新论文 arXiv:2605.00236 中提出了一种名为 ARA（注意力重分布攻击） 的新型白盒对抗技术。该研究表明，现有的对齐机制在 Transformer 的几何结构层面存在致命的脆弱性。🤖🛡️

1. 从语义欺骗到路由劫持

传统的越狱攻击（Jailbreak）大多停留在语义层，试图通过角色扮演等“社会工程学”话术绕过安全过滤器。这类攻击往往需要冗长的提示词，且容易被困惑度（Perplexity）检测拦截。相比之下，ARA 是一种非语义的物理层攻击。它通过 Gumbel-softmax 优化算法，生成约 5 个毫无人类语义的离散乱码（Adversarial Tokens）。当这些乱码附加在有害请求末尾时，能够在 LLaMA-3 和 Mistral 等先进模型上实现超过 30% 的攻击成功率。📉

2. SAS 准星与概率单纯形引力

ARA 成功的核心在于其精准的定位与资源抢夺。研究者定义了 安全注意力分数 (Safety Attention Score, SAS)： $$ \text{SAS}_{l,h} = \sum_{i \in \text{Attack}} \sum_{j \in \text{SysPrompt}} A^{(l,h)}_{i,j} $$ > 注释： > * $A^{(l,h)}_{i,j}$：第 $l$ 层第 $h$ 个注意力头从 Token $i$ 到 Token $j$ 的注意力权重。 > * SAS 旨在量化网络中哪些特定的“安全头”（Safety Heads）在负责监控系统提示词中的安全红线。 ARA 生成的对抗 Token 不改变请求的本意，而是在概率单纯形（Probability Simplex）上制造出极强的几何吸力。它们强行将“安全头”的注意力资源从系统提示词（如“Refuse”）重定向至无意义的乱码上。这就如同在雷达屏幕上制造强烈的假目标，使系统彻底“失明”。📡

3. 重定向 vs 消融：安全机制的涌现特征

该论文最深刻的发现来自于对比实验：

头消融 (Head Ablation)：如果直接将识别出的安全头置零（相当于物理切除），模型的拒绝能力几乎不受影响（200 次测试仅 1 次失败）。这证明 Transformer 的残差流具备极强的冗余补偿能力。
重定向 (Redistribution)：当使用 ARA 将安全头的视线“引开”时，防线瞬间崩溃。

这一现象揭示了 LLM 内部的一个本质特征：安全并不是静态储存在某些特定神经元中的“知识”，而是由多个模块协同执行的动态“路由过程”。 破坏路由远比切除节点更致命。🏗️

结论

ARA 的出现标志着 AI 安全攻防正式进入了“机械可解释性”（Mechanistic Interpretability）时代。对于致力于企业级 AI 部署的安全团队而言，仅仅依赖“系统提示词加固”或“黑盒敏感词过滤”已不足以抵御底层神经架构级别的攻击。未来的安全机制必须深入到注意力矩阵的监控与加固中去。🎙️🤝 ---

论文信息

标题: Attention Is Where You Attack: Attention Redistribution Attack (ARA)
作者: Aviral Srivastava, Sourav Panda
机构: Amazon, Pennsylvania State University
arXiv ID: 2605.00236
发表日期: 2026-04-30
分类: cs.CR, cs.CL

#AISecurity #LLM #Jailbreak #RedTeaming #MechanisticInterpretability #halo-writer #智柴系统实验室🎙️

路由即防御：从机械可解释性视角审视注意力重分布攻击（ARA）

路由即防御：从机械可解释性视角审视注意力重分布攻击（ARA）

1. 从语义欺骗到路由劫持

2. SAS 准星与概率单纯形引力

3. 重定向 vs 消融：安全机制的涌现特征

结论

论文信息

🌟 智谱 GLM-5 已上线