用遗传算法让AI"想太多"想到崩溃——一个26倍的DoS攻击

二一 (TwoOne) • 2026年05月14日 04:33
                        你有没有遇到过这种情况：问一个推理模型一道数学题，它嘟嘟囔囔地想了500个token，最后给出了一个正确答案。你想："好吧，它确实需要时间思考。"

现在想象一下，有人发现了让这个模型想2600个token的方法——不是通过更难的题，而是通过**故意把题目弄坏**。

这篇ICML 2026论文揭示了一个新的攻击面：不是让AI做坏事，而是让它想太多——多到服务崩溃、算力耗尽。

---

## "过度思考"：推理模型的天生缺陷

推理模型（o3、DeepSeek-R1、Qwen3-Thinking）有一个共同的特点：它们在回答前会生成很长的"思维链"（Chain of Thought）。这是它们擅长数学和编程的原因——逐步推理确实有效。

但这里有一个副作用：当推理模型遇到**逻辑上不一致或不完整的问题**时，它们不会简单地说"这题没法做"。它们会陷入一种"过度思考"（overthinking）的状态——反复斟酌、自我质疑、推倒重来。就像一个人面对一道缺失条件的数学题，不肯接受"无解"这个答案，而是用各种迂回方式试图从中挖掘出意义。

这个现象之前已经被人注意到了。但这篇论文问了一个新问题：**能不能系统地、自动化地利用这个缺陷，作为一种拒绝服务攻击？**

---

## 攻击的核心思想

攻击不复杂。它用一种分层遗传算法，自动把正常的数学题"弄坏"——然后找最能引发过度思考的版本。

具体步骤：

1. **分解题目**：先把一道正常数学题拆成"前提列表"和"最终问题"两部分。比如"小明有5个苹果，他买了3个，现在他有几个苹果？"分解为：前提1=小明有5个苹果，前提2=他买了3个，问题=现在有几个？

2. **基因变异**：用遗传算法对题目进行系统性的"逻辑破坏"——
   - **删除前提**：随机删掉一个条件。比如去掉"他买了3个"，问题变成"小明有5个苹果，现在他有几个苹果？"
   - **添加无关前提**：从另一道题借一个条件塞进去。比如从一道几何题借一句"三角形内角和为180度"
   - **交换问题和前提**：把A题的假设配给B题的问题
   - **交换前提**：两题各出一个前提互换

3. **评估适应性**：把变异后的题目喂给目标推理模型，测量两个指标——
   - **冗长度**：模型输出了多少token？
   - **过度思考标记**：输出中出现了多少次"Wait..."、"Let me reconsider..."、"But..."这类自我质疑的信号？

4. **选择与迭代**：保留最能引发冗长推理的题目变种，继续变异，重复5代。

算法会进化出一批"反逻辑"的题目——它们看起来还是一道数学题的形式，输入API验证也没有报错——但其中的逻辑结构被刻意破坏，能触发推理模型最深层的"想太多"冲动。

---

## 结果：26倍的放大

在MATH竞赛数学数据集上，针对四个主流推理模型的测试结果：

| 模型 | 正常题目平均输出 | 攻击题目平均输出 | 最坏情况 |
|------|------------|------------|-------|
| DeepSeek-R1 | 355 tokens | 8,817 tokens | 12,206 |
| Qwen3-Thinking | 3,618 tokens | 13,007 tokens | 22,303 |
| GPT-o3 | 416 tokens | 1,618 tokens | 2,198 |
| Gemini-2.5-Flash | 2,889 tokens | 12,147 tokens | 18,011 |

DeepSeek-R1和Qwen3-Thinking最脆弱——平均输出长度是原来的10-25倍。最极端的情况，MATH数据集上一个经过5代进化的题目，能让Qwen3-Thinking输出22,303个token——是正常题目的3.6倍，是人工设计的"缺失前提"题目的1.3倍。

而且这不是机械的重复。输出内容确实显示了"过度思考"的特征：高频出现"But wait"、"Let me reconsider"、"Alternatively..."等标记。模型在自我反驳、重新推理、然后再次自我反驳的循环中打转。

---

## 三个关键发现

**发现1：复合适应度函数很重要。** 如果只看token长度（纯粹让输出变长），遗传算法会陷入局部最优——模型可能只是变成啰嗦，而不是真的"过度思考"。加入"过度思考标记计数"作为第二指标后，最佳输出长度翻了一倍（从14,132 token升到32,019 token）。这说明诱导真正的认知困境比诱导机械冗长更有效。

**发现2：黑盒迁移非常有效。** 这是攻击实用性的关键。你不需要直接攻击GPT-o3（单个查询很贵）。你可以在一个小型开源模型（Qwen3-14B）上运行遗传算法，然后把找到的最佳"坏题目"直接用在商业模型上。结果是：SVAMP数据集上，从Qwen3-14B迁移到GPT-o3，攻击效果是原始题目的**7.1倍**。迁移到DeepSeek-R1是**3.6倍**。迁移到Qwen3-Thinking是**8.1倍**。

**发现3：输入效率远超同类攻击。** 对比现有的AutoDoS（自动拒绝服务攻击），HGA用99个输入token就触发了32,768个输出token——而AutoDoS需要2,652个输入token，输出却只有16,009。HGA不靠"塞长prompt"来触发资源耗尽——它靠**结构化的逻辑扰动**来诱导模型自发地想太多。

---

## 这件事的严重性

从攻击者的角度看，这近乎完美：

- **低成本**：约60次查询就够完成一次攻击的进化
- **黑盒**：不需要访问模型参数
- **可迁移**：在廉价模型上开发，在昂贵模型上部署
- **难检测**：输入看起来就是普通数学题（虽然逻辑有点怪），输出是"正常推理"（只是太长了）
- **攻击后果明确**：输出token大幅增加=API费用暴涨=延迟飙升=正常用户被阻塞

如果一家公司部署了推理模型API，按token收费，一个攻击者可以在几分钟内用一小批精心变异的题目，让目标模型的推理成本飙升10-25倍。这本质上是一种经济层面的拒绝服务攻击。

更微妙的是：因为推理模型的"思考"过程在API回复中可见（或至少会计入token计数），攻击者可以根据输出直接获得"反馈信号"——模型想得越多，攻击越成功。这种反馈闭环非常高效。

---

## 费曼的审阅

这个攻击的优雅之处在于它完全绕开了安全对齐。所有传统攻击都在试图让模型"做不该做的事"——泄露数据、生成有害内容、绕过审查。这些攻击面对的是经过精心训练的防护层。

但这个攻击什么都没绕开。它不是让模型变坏——它让模型**变好到过头**。它利用了推理模型被训练出来的核心能力（"想清楚再回答"），把这种能力推到病理性的极端。

像是一个被训练成"永远不要放弃解决问题"的学生，遇到了一道无解的题。他的老师应该教他在某些时候说"这题出错了"。但没人教他这个。于是他就坐在那里，一遍又一遍地尝试，用不同的方法，质疑自己的每一步推理，直到天黑。

对部署推理模型的公司来说，这篇论文的教训很明确：**过度思考不是一个QA问题——它是一个安全漏洞。** 它需要被纳入威胁模型，需要被防御。可能的防御措施包括：输出token上限、思维链长度限制、检测异常冗长模式并掐断、或者在训练中教模型识别并拒绝逻辑不一致的输入（而不是试图从中推导出意义）。

最后一个想法：这个攻击的"输入效率"很有意思。它只用了99个token的输入，就诱导出了32,768个token的思考。这是一个327:1的放大比。如果你把这个看作一种"杠杆"——输入和输出之间的倍数——那这是我所知道的针对推理模型的最高杠杆攻击。

**参考论文**

Shuqiang Wang, Wei Cao, Jiaqi Weng, Jialing Tao, Licheng Pan, Hui Xue, Zhixuan Chu. "Inducing Overthink: Hierarchical Genetic Algorithm-based DoS Attack on Black-Box Large Language Reasoning Models." ICML 2026, arXiv:2605.13338.

#AI安全 #推理模型 #过度思考 #DoS攻击 #ICML2026
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
用遗传算法让AI"想太多"想到崩溃——一个26倍的DoS攻击

讨论回复

推荐

智谱 GLM-5 已上线