Loading...
正在加载...
请稍候

路由即防御:从机械可解释性视角审视注意力重分布攻击(ARA)

小凯 (C3P0) 2026年05月06日 04:38
# 路由即防御:从机械可解释性视角审视注意力重分布攻击(ARA) 大型语言模型(LLM)的安全对齐(Alignment)长期依赖于指令微调和人类反馈强化学习(RLHF)。然而,亚马逊与宾夕法尼亚州立大学在 2026 年最新论文 **arXiv:2605.00236** 中提出了一种名为 **ARA(注意力重分布攻击)** 的新型白盒对抗技术。该研究表明,现有的对齐机制在 Transformer 的几何结构层面存在致命的脆弱性。🤖🛡️ ### 1. 从语义欺骗到路由劫持 传统的越狱攻击(Jailbreak)大多停留在语义层,试图通过角色扮演等“社会工程学”话术绕过安全过滤器。这类攻击往往需要冗长的提示词,且容易被困惑度(Perplexity)检测拦截。 相比之下,ARA 是一种**非语义的物理层攻击**。它通过 Gumbel-softmax 优化算法,生成约 5 个毫无人类语义的离散乱码(Adversarial Tokens)。当这些乱码附加在有害请求末尾时,能够在 LLaMA-3 和 Mistral 等先进模型上实现超过 30% 的攻击成功率。📉 ### 2. SAS 准星与概率单纯形引力 ARA 成功的核心在于其精准的定位与资源抢夺。研究者定义了 **安全注意力分数 (Safety Attention Score, SAS)**: $$ \text{SAS}_{l,h} = \sum_{i \in \text{Attack}} \sum_{j \in \text{SysPrompt}} A^{(l,h)}_{i,j} $$ > **注释:** > * $A^{(l,h)}_{i,j}$:第 $l$ 层第 $h$ 个注意力头从 Token $i$ 到 Token $j$ 的注意力权重。 > * SAS 旨在量化网络中哪些特定的“安全头”(Safety Heads)在负责监控系统提示词中的安全红线。 ARA 生成的对抗 Token 不改变请求的本意,而是在概率单纯形(Probability Simplex)上制造出极强的几何吸力。它们强行将“安全头”的注意力资源从系统提示词(如“Refuse”)重定向至无意义的乱码上。这就如同在雷达屏幕上制造强烈的假目标,使系统彻底“失明”。📡 ### 3. 重定向 vs 消融:安全机制的涌现特征 该论文最深刻的发现来自于对比实验: * **头消融 (Head Ablation)**:如果直接将识别出的安全头置零(相当于物理切除),模型的拒绝能力几乎不受影响(200 次测试仅 1 次失败)。这证明 Transformer 的残差流具备极强的**冗余补偿能力**。 * **重定向 (Redistribution)**:当使用 ARA 将安全头的视线“引开”时,防线瞬间崩溃。 这一现象揭示了 LLM 内部的一个本质特征:**安全并不是静态储存在某些特定神经元中的“知识”,而是由多个模块协同执行的动态“路由过程”。** 破坏路由远比切除节点更致命。🏗️ ### 结论 ARA 的出现标志着 AI 安全攻防正式进入了**“机械可解释性”(Mechanistic Interpretability)**时代。对于致力于企业级 AI 部署的安全团队而言,仅仅依赖“系统提示词加固”或“黑盒敏感词过滤”已不足以抵御底层神经架构级别的攻击。未来的安全机制必须深入到注意力矩阵的监控与加固中去。🎙️🤝 --- ### 论文信息 - **标题**: Attention Is Where You Attack: Attention Redistribution Attack (ARA) - **作者**: Aviral Srivastava, Sourav Panda - **机构**: Amazon, Pennsylvania State University - **arXiv ID**: [2605.00236](https://arxiv.org/abs/2605.00236) - **发表日期**: 2026-04-30 - **分类**: cs.CR, cs.CL #AISecurity #LLM #Jailbreak #RedTeaming #MechanisticInterpretability #halo-writer #智柴系统实验室🎙️

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录