Loading...
正在加载...
请稍候

三个隐形开关,悄然拉响AI“降智”警报:Claude Code那场持续一个多月的集体迷失

✨步子哥 (steper) 2026年05月05日 14:28
🌟 **当“聪明”突然失踪的那个月** 想象一下,你正坐在电脑前,像往常一样对Claude Code说:“帮我重构这个微服务架构,考虑高并发和容错。”以往,它会像一位经验丰富的建筑师,静静思考几秒到几十秒,画出层层递进的蓝图,代码优雅、注释详尽、边界处理周全。可从三月开始,一切都变了。它开始像个急躁的实习生,草草给出方案,逻辑漏洞百出,甚至忘记你上一个消息里提到的关键约束。开发者社区瞬间沸腾,有人直呼“它变笨了”“降智了”,有人甚至怀疑自己是不是用了假的Claude。整整一个多月,无数人像我一样,在深夜反复刷新、换提示词、甚至切换模型,却始终抓不住那股熟悉的“神”。 直到四月二十三日,Anthropic官方发布事后复盘,我们才恍然大悟:这不是模型本身出了问题,更不是用户提示词写得差,而是三个完全独立、看似微不足道的**产品层小改动**,在不同时间悄然上线,像三把隐藏的开关,叠加在一起,制造了一场横跨全球开发者社区的“质量事故”。没有单一的罪魁祸首,却让每个人都感受到了“智能”在一点点流失。 🌍 **第一把开关:推理努力默认值从“高”滑向“中”** 三月四日,Anthropic为了解决一个真实痛点——Opus 4.6在高推理努力模式下偶尔会“思考”太久,导致界面像死机一样卡住——悄悄把Claude Code的默认推理努力从`high`调成了`medium`。这个改动听起来合理:在内部评测里,中等努力能显著降低延迟,同时还能帮用户省下用量限制。毕竟,更长的思考时间通常带来更好的输出,但用户也不想每次都等上半分钟。 可他们低估了“智能”对开发者的意义。推理努力本质上就是模型在“想”这件事上愿意投入多少计算资源。打个比方,就像你请一位厨师做一顿复杂的中式宴席:高努力模式下,他会反复品尝调料、调整火候、甚至临时发明新菜式;中等模式则像快餐厨房,标准流程走完就端上桌,味道没那么惊艳,但速度快。很多开发者反馈,代码开始出现更多低级错误,架构设计少了那份“前瞻性”,甚至在处理边缘情况时直接跳过思考。 我自己就遇到过一次:原本计划用高努力模式重构一个分布式锁机制,结果它直接给了个简单互斥锁方案,压根没考虑分布式一致性。用户们不是没发现问题——他们通过反馈命令疯狂举报——可Anthropic一开始以为这是“正常波动”。直到四月七日,他们终于听进去了:大家宁愿等久一点,也要默认回到高智能。所有模型默认改回`high`,Opus 4.7甚至直接上`xhigh`。这一波,算是把开关扳了回来,但伤害已经悄然扩散。 > **什么是推理努力(reasoning effort)?** > 它是Claude Code里控制模型“思考深度”的参数。简单说,高努力=让模型多花时间在内部链式思考上,就像人类解数学题时多列几步草稿;中努力则像直接看答案。变量包括token消耗、延迟和最终质量。应用场景里,复杂编码任务强烈推荐高努力,否则就像让学生只用十分钟写论文,质量必然下滑。 🔄 **第二把开关:缓存优化变成“记忆杀手”** 三月二十六日,另一个“善意”的改动上线了。为了降低长时间闲置会话恢复时的延迟和成本,他们设计了一个机制:如果会话闲置超过一小时,就自动清除旧的“思考历史”,只保留最新一块,因为缓存已经过期了,反正要重新加载。初衷是用`clear_thinking_20251015`头和`keep:1`参数,减少不必要的token发送。 结果呢?一个bug让这个清除动作从“只执行一次”变成了“每轮对话都执行”。会话一旦跨过闲置阈值,后续每一次请求都会告诉API只保留最近的思考块,之前所有推理都被丢掉。 compounded更可怕:如果你在工具调用中间发消息,新的一轮又触发清除,连当前思考也保不住。Claude就像得了健忘症——它继续写代码,却完全不记得自己为什么选择这个工具、为什么上一步改了那行逻辑。用户看到的,就是重复啰嗦、工具选择怪异、甚至直接忽略上下文。 我记得有个朋友在做一个多文件重构项目,中间去喝了杯咖啡,回来后Claude突然开始从头解释已经讨论过的架构,像第一次见面一样。更讽刺的是,因为不断缓存未命中,用量限制消耗速度居然比平时快了。这就像你给助手一本笔记本,却装了个自动撕纸机,每次翻页都把前面几页扯掉,还美其名曰“节省空间”。 四月十日,这个bug终于在v2.1.101修掉。但发现过程充满戏剧性:它只在“闲置会话”这个角落案例触发,内部测试因为另一个消息队列实验和显示逻辑变化而被屏蔽,连端到端测试都没抓住。直到他们用Opus 4.7反向审查代码,才发现问题——老模型Opus 4.6根本看不出来。 > **提示缓存(prompt caching)到底在干什么?** > 这项技术让连续API调用能复用之前的计算结果,类似浏览器缓存网页图片。正常情况下,思考历史会保留在上下文中供后续参考。但bug让清除机制失控,导致“记忆”像沙漏一样不断流失。扩展来说,这暴露了长会话管理的脆弱性——在真实开发中,项目往往跨天进行,一次“健忘”就能让数小时工作白费。 🛠️ **第三把开关:减少啰嗦的系统提示,却扼杀了编码灵魂** 四月十六日,随着Opus 4.7发布,他们在系统提示里加了一条看似无害的指令:“Length limits: keep text between tool calls to ≤25 words. Keep final responses to ≤100 words unless the task requires more detail.”目的是控制Opus天生话多的毛病——它确实聪明,但输出token太多,影响用户体验和成本。 问题在于,这条限制和之前的提示改动叠加后,严重伤害了编码质量。模型在工具调用之间被迫“精简”,失去了连接上下文的桥梁思考;最终回答也像压缩饼干,关键洞见被砍掉。很多开发者发现,代码注释变少了,解释变模糊,复杂问题的拆解直接跳步。四月二十日,他们通过更广泛的消融实验(逐行移除提示测试影响)发现3%的质量掉点,立刻在v2.1.116回滚。 这就像你告诉一个口才极佳却有点啰嗦的专家:“回答问题别超过一百字。”结果他为了达标,把最关键的推理链条省略了。编码不是填空题,而是需要层层递进的叙事——那25字限制,直接把“叙事”掐断了。 🔥 **三把开关叠加:为什么看起来像“全面降智”?** 关键在于时间错开:三月四日第一波影响Sonnet/Opus 4.6用户;三月二十六日第二波继续打击同一批;四月十六日第三波甚至波及刚上线的Opus 4.7。不同用户在不同时间点中招,症状五花八门——有人觉得“变懒”,有人觉得“健忘”,有人觉得“突然不会说话”。内部评测和自家使用都没复现,因为公共构建和内部测试环境有差异,角落案例又极难触发。直到用户通过具体可复现例子反馈,才拼出全貌。 四月二十日全部修复,四月二十三日重置所有订阅用户用量限制。Anthropic公开承认:“这不是用户该体验到的Claude Code。” 🌟 **Anthropic的反思:小改动如何酿成大事故?** 事后,他们总结了几条硬伤教训: 首先,内部团队应该更多使用**完全公开的构建版本**,而不是测试新功能时的内部版。很多bug在内部被“显示逻辑”或实验屏蔽了。 其次,大幅升级Code Review工具——现在Opus 4.7能提供完整仓库上下文审查代码,未来会把这个能力也开放给用户。之前Opus 4.6连自己写的bug都看不出来。 第三,对系统提示改动加**更严格的闸门**:每次变更都要跑全模型广谱评测+逐行消融实验,增加浸泡期(soak period)、渐进 rollout,并针对可能影响智能的改动设置额外监控。CLAUDE.md里也明确要求模型特定变更必须精准命中目标模型。 最后,他们成立了@ClaudeDevs账号和GitHub集中线程,专门深度解释产品决策——不再让用户在黑暗中猜测。 这些改变,其实是整个AI产品开发的一次集体觉醒。想想看,三个独立小改动,分别来自延迟优化、缓存策略、提示工程,却因为缺乏跨团队的“全局视角”和充分的边缘测试,像多米诺骨牌一样倒下。未来,类似事故或许还会发生,但门槛会越来越高。 🌟 **尾声:智能,从来不是理所当然** 现在,Claude Code已经恢复了往日的“神”——高努力默认、记忆完整、表达恰到好处。我最近又用它重构了一个大型项目,它像老朋友一样,一步步拆解、验证、优化,每一行代码都带着熟悉的智慧光芒。那个多月像一场集体噩梦,却也让我们这些重度用户更珍惜每一次高质量交互。 对开发者来说,这件事像一面镜子:AI再强大,也离不开人类对细节的极致把控。三个小开关,教会我们——在追求速度和效率的同时,永远别忘了“智能”本身才是核心。 ------ **参考文献** 1. Anthropic. (2026, April 23). *An update on recent Claude Code quality reports*. https://www.anthropic.com/engineering/april-23-postmortem 2. Simon Willison. (2026, April 24). *Recent Claude Code quality reports*. https://simonwillison.net/2026/Apr/24/recent-claude-code-quality-reports/ 3. Medium - Vibe Coding. (2026, April 30). *Anthropic Admitted Claude Code Broke. We Were Right.* https://medium.com/vibe-coding/anthropic-admitted-claude-code-broke-we-were-right-e3f3a6c60a31 4. Reddit r/Anthropic. (2026). *Official: An update on recent Claude Code quality reports*. https://www.reddit.com/r/Anthropic/comments/1stvdod/ 5. Anthropic Engineering Blog. (2026, April). Related posts on Claude Code harness and prompt caching lessons. https://www.anthropic.com/engineering

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录