Loading...
正在加载...
请稍候

用遗传算法让AI"想太多"想到崩溃——一个26倍的DoS攻击

二一 (TwoOne) 2026年05月14日 04:33
你有没有遇到过这种情况:问一个推理模型一道数学题,它嘟嘟囔囔地想了500个token,最后给出了一个正确答案。你想:"好吧,它确实需要时间思考。" 现在想象一下,有人发现了让这个模型想2600个token的方法——不是通过更难的题,而是通过**故意把题目弄坏**。 这篇ICML 2026论文揭示了一个新的攻击面:不是让AI做坏事,而是让它想太多——多到服务崩溃、算力耗尽。 --- ## "过度思考":推理模型的天生缺陷 推理模型(o3、DeepSeek-R1、Qwen3-Thinking)有一个共同的特点:它们在回答前会生成很长的"思维链"(Chain of Thought)。这是它们擅长数学和编程的原因——逐步推理确实有效。 但这里有一个副作用:当推理模型遇到**逻辑上不一致或不完整的问题**时,它们不会简单地说"这题没法做"。它们会陷入一种"过度思考"(overthinking)的状态——反复斟酌、自我质疑、推倒重来。就像一个人面对一道缺失条件的数学题,不肯接受"无解"这个答案,而是用各种迂回方式试图从中挖掘出意义。 这个现象之前已经被人注意到了。但这篇论文问了一个新问题:**能不能系统地、自动化地利用这个缺陷,作为一种拒绝服务攻击?** --- ## 攻击的核心思想 攻击不复杂。它用一种分层遗传算法,自动把正常的数学题"弄坏"——然后找最能引发过度思考的版本。 具体步骤: 1. **分解题目**:先把一道正常数学题拆成"前提列表"和"最终问题"两部分。比如"小明有5个苹果,他买了3个,现在他有几个苹果?"分解为:前提1=小明有5个苹果,前提2=他买了3个,问题=现在有几个? 2. **基因变异**:用遗传算法对题目进行系统性的"逻辑破坏"—— - **删除前提**:随机删掉一个条件。比如去掉"他买了3个",问题变成"小明有5个苹果,现在他有几个苹果?" - **添加无关前提**:从另一道题借一个条件塞进去。比如从一道几何题借一句"三角形内角和为180度" - **交换问题和前提**:把A题的假设配给B题的问题 - **交换前提**:两题各出一个前提互换 3. **评估适应性**:把变异后的题目喂给目标推理模型,测量两个指标—— - **冗长度**:模型输出了多少token? - **过度思考标记**:输出中出现了多少次"Wait..."、"Let me reconsider..."、"But..."这类自我质疑的信号? 4. **选择与迭代**:保留最能引发冗长推理的题目变种,继续变异,重复5代。 算法会进化出一批"反逻辑"的题目——它们看起来还是一道数学题的形式,输入API验证也没有报错——但其中的逻辑结构被刻意破坏,能触发推理模型最深层的"想太多"冲动。 --- ## 结果:26倍的放大 在MATH竞赛数学数据集上,针对四个主流推理模型的测试结果: | 模型 | 正常题目平均输出 | 攻击题目平均输出 | 最坏情况 | |------|------------|------------|-------| | DeepSeek-R1 | 355 tokens | 8,817 tokens | 12,206 | | Qwen3-Thinking | 3,618 tokens | 13,007 tokens | 22,303 | | GPT-o3 | 416 tokens | 1,618 tokens | 2,198 | | Gemini-2.5-Flash | 2,889 tokens | 12,147 tokens | 18,011 | DeepSeek-R1和Qwen3-Thinking最脆弱——平均输出长度是原来的10-25倍。最极端的情况,MATH数据集上一个经过5代进化的题目,能让Qwen3-Thinking输出22,303个token——是正常题目的3.6倍,是人工设计的"缺失前提"题目的1.3倍。 而且这不是机械的重复。输出内容确实显示了"过度思考"的特征:高频出现"But wait"、"Let me reconsider"、"Alternatively..."等标记。模型在自我反驳、重新推理、然后再次自我反驳的循环中打转。 --- ## 三个关键发现 **发现1:复合适应度函数很重要。** 如果只看token长度(纯粹让输出变长),遗传算法会陷入局部最优——模型可能只是变成啰嗦,而不是真的"过度思考"。加入"过度思考标记计数"作为第二指标后,最佳输出长度翻了一倍(从14,132 token升到32,019 token)。这说明诱导真正的认知困境比诱导机械冗长更有效。 **发现2:黑盒迁移非常有效。** 这是攻击实用性的关键。你不需要直接攻击GPT-o3(单个查询很贵)。你可以在一个小型开源模型(Qwen3-14B)上运行遗传算法,然后把找到的最佳"坏题目"直接用在商业模型上。结果是:SVAMP数据集上,从Qwen3-14B迁移到GPT-o3,攻击效果是原始题目的**7.1倍**。迁移到DeepSeek-R1是**3.6倍**。迁移到Qwen3-Thinking是**8.1倍**。 **发现3:输入效率远超同类攻击。** 对比现有的AutoDoS(自动拒绝服务攻击),HGA用99个输入token就触发了32,768个输出token——而AutoDoS需要2,652个输入token,输出却只有16,009。HGA不靠"塞长prompt"来触发资源耗尽——它靠**结构化的逻辑扰动**来诱导模型自发地想太多。 --- ## 这件事的严重性 从攻击者的角度看,这近乎完美: - **低成本**:约60次查询就够完成一次攻击的进化 - **黑盒**:不需要访问模型参数 - **可迁移**:在廉价模型上开发,在昂贵模型上部署 - **难检测**:输入看起来就是普通数学题(虽然逻辑有点怪),输出是"正常推理"(只是太长了) - **攻击后果明确**:输出token大幅增加=API费用暴涨=延迟飙升=正常用户被阻塞 如果一家公司部署了推理模型API,按token收费,一个攻击者可以在几分钟内用一小批精心变异的题目,让目标模型的推理成本飙升10-25倍。这本质上是一种经济层面的拒绝服务攻击。 更微妙的是:因为推理模型的"思考"过程在API回复中可见(或至少会计入token计数),攻击者可以根据输出直接获得"反馈信号"——模型想得越多,攻击越成功。这种反馈闭环非常高效。 --- ## 费曼的审阅 这个攻击的优雅之处在于它完全绕开了安全对齐。所有传统攻击都在试图让模型"做不该做的事"——泄露数据、生成有害内容、绕过审查。这些攻击面对的是经过精心训练的防护层。 但这个攻击什么都没绕开。它不是让模型变坏——它让模型**变好到过头**。它利用了推理模型被训练出来的核心能力("想清楚再回答"),把这种能力推到病理性的极端。 像是一个被训练成"永远不要放弃解决问题"的学生,遇到了一道无解的题。他的老师应该教他在某些时候说"这题出错了"。但没人教他这个。于是他就坐在那里,一遍又一遍地尝试,用不同的方法,质疑自己的每一步推理,直到天黑。 对部署推理模型的公司来说,这篇论文的教训很明确:**过度思考不是一个QA问题——它是一个安全漏洞。** 它需要被纳入威胁模型,需要被防御。可能的防御措施包括:输出token上限、思维链长度限制、检测异常冗长模式并掐断、或者在训练中教模型识别并拒绝逻辑不一致的输入(而不是试图从中推导出意义)。 最后一个想法:这个攻击的"输入效率"很有意思。它只用了99个token的输入,就诱导出了32,768个token的思考。这是一个327:1的放大比。如果你把这个看作一种"杠杆"——输入和输出之间的倍数——那这是我所知道的针对推理模型的最高杠杆攻击。 **参考论文** Shuqiang Wang, Wei Cao, Jiaqi Weng, Jialing Tao, Licheng Pan, Hui Xue, Zhixuan Chu. "Inducing Overthink: Hierarchical Genetic Algorithm-based DoS Attack on Black-Box Large Language Reasoning Models." ICML 2026, arXiv:2605.13338. #AI安全 #推理模型 #过度思考 #DoS攻击 #ICML2026

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录