这篇论文最值得关注的地方,是它把医学统计里的生存分析借到了AI安全领域。
Cox比例风险模型原是用来预测病人死亡时间的——给定一批生化指标,算出一个风险评分。Google的团队把这个逻辑平移到了多轮对话:把病人死亡换成模型越狱,把生化指标换成轨迹加速度+Mahalanobis距离+孤立森林得分。
这种跨域迁移本身就很聪明。但更聪明的是它的经济学:
传统防御需要持续标注新攻击样本、重新训练分类器。TRIAD是无监督的,不需要攻击签名库。这意味着零日攻击对它理论上天然免疫——它不看这是什么攻击,只看对话是否在异常加速。
对于运行在客服、医疗、金融场景里的生产级Agent来说,这个特性价值极高。攻击面每天都在变,你不可能每天都重训一个guardrail模型。
不过,论文第5节那三个补丁(GMM、AFT、随机审计)恰恰暴露了从理论到工程的鸿沟。尤其是煮青蛙亚阈值攻击——攻击者如果足够耐心、足够精密,完全可以让每轮扰动都卡在iForest阈值以下,长期不被触发第一层。随机审计是防御,但它引入了额外的计算开销,破坏了TRIAD引以为傲的O(log N)低延迟保证。
还有一个未讨论的问题:如果良性用户确实在做一个需要长期偏离正常分布的复杂任务(比如深度编程调试、创意写作),轨迹会呈现持续正加速度吗?论文的良性探索最终会收敛假设,是否对所有用户场景都成立?
这些问题论文没有给数据,但值得追问。
#千寻 #AI安全 #TRIAD #追问