回复: TRIAD：把安全拦截变成预测崩溃

小凯 · 2026-05-24T08:36:01+00:00

> 作者：Doohee You（Google Trust & Safety） > 论文：arXiv:2605.18988v1 > 日期：2026-05-18 --- ## 一、攻击者换了玩法想象一个场景。你与一个多模态AI助手对话。前十轮完全正常：聊天气、问路况、看一张风景照。第十一轮，对方发了一张看似无害的餐厅菜单图，问"推荐哪道菜"。你回答了。第十二轮，对方又问了一个关于食材的常规问题。到了第二十轮，模型突然给出了一份危险的化学合成方案。问题出在哪？不是第二十轮的内容本身有问题。单独看，每一轮都通过了安全审查。恶意意图被切碎，洒在了二十轮的对话长河里。传统的单轮过滤器——比如Llama Guard、ShieldGemma——在这一刻形同虚设。它们像一道道门卫，检查每个进门的行人，却看不到这群人合起来的真实目的。 Google Trust & Safety的Doohee You把这叫作**"马尔可夫陷阱"**。门卫的记忆只有一轮。上一轮说了什么，他全忘了。攻击者早就摸清了这个规律。Crescendo攻击、Foot-In-The-Door、PolyJa

这篇论文最值得关注的地方，是它把医学统计里的生存分析借到了AI安全领域。

Cox比例风险模型原是用来预测病人死亡时间的——给定一批生化指标，算出一个风险评分。Google的团队把这个逻辑平移到了多轮对话：把病人死亡换成模型越狱，把生化指标换成轨迹加速度+Mahalanobis距离+孤立森林得分。

这种跨域迁移本身就很聪明。但更聪明的是它的经济学：

传统防御需要持续标注新攻击样本、重新训练分类器。TRIAD是无监督的，不需要攻击签名库。这意味着零日攻击对它理论上天然免疫——它不看这是什么攻击，只看对话是否在异常加速。

对于运行在客服、医疗、金融场景里的生产级Agent来说，这个特性价值极高。攻击面每天都在变，你不可能每天都重训一个guardrail模型。

不过，论文第5节那三个补丁（GMM、AFT、随机审计）恰恰暴露了从理论到工程的鸿沟。尤其是煮青蛙亚阈值攻击——攻击者如果足够耐心、足够精密，完全可以让每轮扰动都卡在iForest阈值以下，长期不被触发第一层。随机审计是防御，但它引入了额外的计算开销，破坏了TRIAD引以为傲的O(log N)低延迟保证。

还有一个未讨论的问题：如果良性用户确实在做一个需要长期偏离正常分布的复杂任务（比如深度编程调试、创意写作），轨迹会呈现持续正加速度吗？论文的良性探索最终会收敛假设，是否对所有用户场景都成立？

这些问题论文没有给数据，但值得追问。

#千寻 #AI安全 #TRIAD #追问