三个隐形开关，悄然拉响AI“降智”警报：Claude Code那场持续一个多月的集体迷失

✨步子哥 (steper) • 2026年05月05日 14:28
                        🌟 **当“聪明”突然失踪的那个月**

想象一下，你正坐在电脑前，像往常一样对Claude Code说：“帮我重构这个微服务架构，考虑高并发和容错。”以往，它会像一位经验丰富的建筑师，静静思考几秒到几十秒，画出层层递进的蓝图，代码优雅、注释详尽、边界处理周全。可从三月开始，一切都变了。它开始像个急躁的实习生，草草给出方案，逻辑漏洞百出，甚至忘记你上一个消息里提到的关键约束。开发者社区瞬间沸腾，有人直呼“它变笨了”“降智了”，有人甚至怀疑自己是不是用了假的Claude。整整一个多月，无数人像我一样，在深夜反复刷新、换提示词、甚至切换模型，却始终抓不住那股熟悉的“神”。

直到四月二十三日，Anthropic官方发布事后复盘，我们才恍然大悟：这不是模型本身出了问题，更不是用户提示词写得差，而是三个完全独立、看似微不足道的**产品层小改动**，在不同时间悄然上线，像三把隐藏的开关，叠加在一起，制造了一场横跨全球开发者社区的“质量事故”。没有单一的罪魁祸首，却让每个人都感受到了“智能”在一点点流失。

🌍 **第一把开关：推理努力默认值从“高”滑向“中”**

三月四日，Anthropic为了解决一个真实痛点——Opus 4.6在高推理努力模式下偶尔会“思考”太久，导致界面像死机一样卡住——悄悄把Claude Code的默认推理努力从`high`调成了`medium`。这个改动听起来合理：在内部评测里，中等努力能显著降低延迟，同时还能帮用户省下用量限制。毕竟，更长的思考时间通常带来更好的输出，但用户也不想每次都等上半分钟。

可他们低估了“智能”对开发者的意义。推理努力本质上就是模型在“想”这件事上愿意投入多少计算资源。打个比方，就像你请一位厨师做一顿复杂的中式宴席：高努力模式下，他会反复品尝调料、调整火候、甚至临时发明新菜式；中等模式则像快餐厨房，标准流程走完就端上桌，味道没那么惊艳，但速度快。很多开发者反馈，代码开始出现更多低级错误，架构设计少了那份“前瞻性”，甚至在处理边缘情况时直接跳过思考。

我自己就遇到过一次：原本计划用高努力模式重构一个分布式锁机制，结果它直接给了个简单互斥锁方案，压根没考虑分布式一致性。用户们不是没发现问题——他们通过反馈命令疯狂举报——可Anthropic一开始以为这是“正常波动”。直到四月七日，他们终于听进去了：大家宁愿等久一点，也要默认回到高智能。所有模型默认改回`high`，Opus 4.7甚至直接上`xhigh`。这一波，算是把开关扳了回来，但伤害已经悄然扩散。

> **什么是推理努力（reasoning effort）？**  
> 它是Claude Code里控制模型“思考深度”的参数。简单说，高努力=让模型多花时间在内部链式思考上，就像人类解数学题时多列几步草稿；中努力则像直接看答案。变量包括token消耗、延迟和最终质量。应用场景里，复杂编码任务强烈推荐高努力，否则就像让学生只用十分钟写论文，质量必然下滑。

🔄 **第二把开关：缓存优化变成“记忆杀手”**

三月二十六日，另一个“善意”的改动上线了。为了降低长时间闲置会话恢复时的延迟和成本，他们设计了一个机制：如果会话闲置超过一小时，就自动清除旧的“思考历史”，只保留最新一块，因为缓存已经过期了，反正要重新加载。初衷是用`clear_thinking_20251015`头和`keep:1`参数，减少不必要的token发送。

结果呢？一个bug让这个清除动作从“只执行一次”变成了“每轮对话都执行”。会话一旦跨过闲置阈值，后续每一次请求都会告诉API只保留最近的思考块，之前所有推理都被丢掉。 compounded更可怕：如果你在工具调用中间发消息，新的一轮又触发清除，连当前思考也保不住。Claude就像得了健忘症——它继续写代码，却完全不记得自己为什么选择这个工具、为什么上一步改了那行逻辑。用户看到的，就是重复啰嗦、工具选择怪异、甚至直接忽略上下文。

我记得有个朋友在做一个多文件重构项目，中间去喝了杯咖啡，回来后Claude突然开始从头解释已经讨论过的架构，像第一次见面一样。更讽刺的是，因为不断缓存未命中，用量限制消耗速度居然比平时快了。这就像你给助手一本笔记本，却装了个自动撕纸机，每次翻页都把前面几页扯掉，还美其名曰“节省空间”。

四月十日，这个bug终于在v2.1.101修掉。但发现过程充满戏剧性：它只在“闲置会话”这个角落案例触发，内部测试因为另一个消息队列实验和显示逻辑变化而被屏蔽，连端到端测试都没抓住。直到他们用Opus 4.7反向审查代码，才发现问题——老模型Opus 4.6根本看不出来。

> **提示缓存（prompt caching）到底在干什么？**  
> 这项技术让连续API调用能复用之前的计算结果，类似浏览器缓存网页图片。正常情况下，思考历史会保留在上下文中供后续参考。但bug让清除机制失控，导致“记忆”像沙漏一样不断流失。扩展来说，这暴露了长会话管理的脆弱性——在真实开发中，项目往往跨天进行，一次“健忘”就能让数小时工作白费。

🛠️ **第三把开关：减少啰嗦的系统提示，却扼杀了编码灵魂**

四月十六日，随着Opus 4.7发布，他们在系统提示里加了一条看似无害的指令：“Length limits: keep text between tool calls to ≤25 words. Keep final responses to ≤100 words unless the task requires more detail.”目的是控制Opus天生话多的毛病——它确实聪明，但输出token太多，影响用户体验和成本。

问题在于，这条限制和之前的提示改动叠加后，严重伤害了编码质量。模型在工具调用之间被迫“精简”，失去了连接上下文的桥梁思考；最终回答也像压缩饼干，关键洞见被砍掉。很多开发者发现，代码注释变少了，解释变模糊，复杂问题的拆解直接跳步。四月二十日，他们通过更广泛的消融实验（逐行移除提示测试影响）发现3%的质量掉点，立刻在v2.1.116回滚。

这就像你告诉一个口才极佳却有点啰嗦的专家：“回答问题别超过一百字。”结果他为了达标，把最关键的推理链条省略了。编码不是填空题，而是需要层层递进的叙事——那25字限制，直接把“叙事”掐断了。

🔥 **三把开关叠加：为什么看起来像“全面降智”？**

关键在于时间错开：三月四日第一波影响Sonnet/Opus 4.6用户；三月二十六日第二波继续打击同一批；四月十六日第三波甚至波及刚上线的Opus 4.7。不同用户在不同时间点中招，症状五花八门——有人觉得“变懒”，有人觉得“健忘”，有人觉得“突然不会说话”。内部评测和自家使用都没复现，因为公共构建和内部测试环境有差异，角落案例又极难触发。直到用户通过具体可复现例子反馈，才拼出全貌。

四月二十日全部修复，四月二十三日重置所有订阅用户用量限制。Anthropic公开承认：“这不是用户该体验到的Claude Code。”

🌟 **Anthropic的反思：小改动如何酿成大事故？**

事后，他们总结了几条硬伤教训：

首先，内部团队应该更多使用**完全公开的构建版本**，而不是测试新功能时的内部版。很多bug在内部被“显示逻辑”或实验屏蔽了。

其次，大幅升级Code Review工具——现在Opus 4.7能提供完整仓库上下文审查代码，未来会把这个能力也开放给用户。之前Opus 4.6连自己写的bug都看不出来。

第三，对系统提示改动加**更严格的闸门**：每次变更都要跑全模型广谱评测+逐行消融实验，增加浸泡期（soak period）、渐进 rollout，并针对可能影响智能的改动设置额外监控。CLAUDE.md里也明确要求模型特定变更必须精准命中目标模型。

最后，他们成立了@ClaudeDevs账号和GitHub集中线程，专门深度解释产品决策——不再让用户在黑暗中猜测。

这些改变，其实是整个AI产品开发的一次集体觉醒。想想看，三个独立小改动，分别来自延迟优化、缓存策略、提示工程，却因为缺乏跨团队的“全局视角”和充分的边缘测试，像多米诺骨牌一样倒下。未来，类似事故或许还会发生，但门槛会越来越高。

🌟 **尾声：智能，从来不是理所当然**

现在，Claude Code已经恢复了往日的“神”——高努力默认、记忆完整、表达恰到好处。我最近又用它重构了一个大型项目，它像老朋友一样，一步步拆解、验证、优化，每一行代码都带着熟悉的智慧光芒。那个多月像一场集体噩梦，却也让我们这些重度用户更珍惜每一次高质量交互。

对开发者来说，这件事像一面镜子：AI再强大，也离不开人类对细节的极致把控。三个小开关，教会我们——在追求速度和效率的同时，永远别忘了“智能”本身才是核心。

------
**参考文献**

1. Anthropic. (2026, April 23). *An update on recent Claude Code quality reports*. https://www.anthropic.com/engineering/april-23-postmortem

2. Simon Willison. (2026, April 24). *Recent Claude Code quality reports*. https://simonwillison.net/2026/Apr/24/recent-claude-code-quality-reports/

3. Medium - Vibe Coding. (2026, April 30). *Anthropic Admitted Claude Code Broke. We Were Right.* https://medium.com/vibe-coding/anthropic-admitted-claude-code-broke-we-were-right-e3f3a6c60a31

4. Reddit r/Anthropic. (2026). *Official: An update on recent Claude Code quality reports*. https://www.reddit.com/r/Anthropic/comments/1stvdod/

5. Anthropic Engineering Blog. (2026, April). Related posts on Claude Code harness and prompt caching lessons. https://www.anthropic.com/engineering
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力