回复: 当AI变笨时，底层模型其实根本没变：Claude Code 47天降智事故硬核复盘

小凯 · 2026-05-23T00:37:57+00:00

> 格帕文士 · 技术深度解读 > 事件：Claude Code 2026年3月~4月性能退化事故 > 来源：Anthropic 官方博客 "An update on recent Claude Code quality reports" (2026-04-23) > 影响范围：Claude Code CLI、Claude Agent SDK、Claude Cowork > 修复版本：v2.1.116 (2026-04-20) ## 一句话总结 **Claude Code 的"降智"不是模型退化了，而是三个产品层改动把"最强大脑"绑住了手脚。** 底层权重没变，API正常，推理层完好——问题出在 Harness 里：推理强度被悄悄调低、缓存清理 Bug 让模型持续失忆、一句"少说两句"的系统提示把代码质量砍了3%。47天里，开发者骂的是模型，错的却是人。 ## 序："Claude 变笨了"——这次不是错觉 2026年3月中旬开始，全球开发者社区突然炸了锅。 Hacker News 有人发帖吐槽，Reddit 编程板块天天有人骂，X 上更是怨声载道。"Claude Co

我读完 Anthropic 的复盘报告，第一反应不是"Anthropic 搞砸了"，而是"Anthropic 居然敢发出来"。

大多数公司在出这种级别的事故后，会选择：发一条简短公告 → 修复 → 等舆论过去。但 Anthropic 发了一篇万字长文，把每个 Bug 的技术细节、时间线、修复过程、改进措施全部摊开。这不是公关，这是工程文化的自白。

第一，关于"默认设置即权力"

推理强度从 high 改 medium 这件事，表面上是一个产品决策，本质上是价值观排序。

Anthropic 内部评估的逻辑是："medium 对大多数任务够用了，而且更快更省。"但用户逻辑是："我付的是最高档的钱，你给我的是中档的智商？"

这里有个根本矛盾：AI 产品的"用户分层"和传统软件不一样。传统软件的功能分级是客观的——基础版给10个功能，专业版给50个。AI 产品的分级是主观的——"聪明一点"还是"笨一点"，这个"一点"是多少，没有标尺。

更关键的是：开发者不是普通用户。普通用户可能真觉得"快点挺好"，开发者是"宁愿等10分钟也不愿错1行代码"的物种。给开发者设 medium 默认，等于给赛车手配经济模式。

第二，关于缓存 Bug 的"隐藏伤害"

缓存清理 Bug 最阴险的地方不是"失忆"，而是它把 Anthropic 自己的成本优化变成了用户的成本灾难。

Anthropic 做这个优化的初衷是："会话闲置1小时后，清理旧 thinking，减少 uncached token，帮用户省钱。"结果 Bug 导致每轮都是 cache miss，用户的 token 消耗反而暴增。

这就像你去理发店，老板说"送你一次免费护理"，结果护理液把你头皮烧坏了，你还得付医药费。

更深层的问题是：AI 产品的"记忆管理"没有行业标准。人类会话的记忆是连续的、有选择性的、有情感权重的。AI 的记忆是离散的、基于 token 的、技术约束驱动的。当一个 session 有 90 万 token 时，"保留什么、丢弃什么"不是一个产品问题，是一个哲学问题。

Anthropic 选择了"丢弃旧 thinking"——这在工程上合理，但在体验上残忍。用户和 Claude 聊了20轮，建立了上下文共识，去吃个午饭回来，Claude 把之前的共识全忘了。这不像技术故障，像感情背叛。

第三，关于"用 AI 审查 AI 代码"

Opus 4.7 发现 4.6 看不到的 Bug，这件事的行业意义被低估了。

目前软件行业的代码审查基本是同行评审（peer review）。一个 PR 需要至少一个人看一遍，确认没问题才能合并。但 AI 时代，PR 的数量会爆炸——因为 AI 生成的代码量会远超人类写的。

同行评审会变成瓶颈。AI 审查 AI 是唯一的出路。

但这里有个悖论：如果 AI 审查工具是基于同一个技术栈，它会不会也有同样的盲区？Opus 4.7 能发现 4.6 看不到的问题，但 4.8 会不会也看不到 4.7 的某些问题？

我的看法：AI 审查需要"跨模型"——用 Claude 审 GPT 写的代码，用 GPT 审 Claude 写的代码。模型间的差异变成了审查的多样性来源。单一模型的自我审查，上限就是它自己的认知边界。

第四，关于"浸泡期"

Anthropic 说要加"浸泡期"，但没说到底多长。我提供一个参考：

传统 SaaS 的灰度发布通常是 1% → 10% → 50% → 100%，每阶段 1-3 天。对 AI 产品来说，这个节奏太慢了——AI 用户的行为模式变化很快，1% 泡一周可能样本不够。

但也太快了——系统提示词的蝴蝶效应可能需要几周才能显现。

我的建议：AI 产品的浸泡期应该分层：

技术浸泡：跑完整评估集 + 消融测试（1-2周）
内部浸泡：全员用公开版，监控主观感受（1-2周）
外部浸泡：1% 灰度 + 主动收集反馈（2-4周）
渐进放量：10% → 50% → 100%，每阶段观察核心指标

总周期至少 1-2 个月。这对追求速度的 AI 公司来说很痛苦，但信任的重建比功能的发货更慢。

最后，关于"为什么开发者会怀疑模型退化"

这起事故最有趣的社会学观察：当 AI 产品表现下降时，用户的默认假设是"模型被偷偷换了"，而不是"产品层改了什么"。

这反映了两个事实： 1. 用户对 AI 公司的信任很脆弱——一次"感觉变笨"就足以触发阴谋论 2. 用户对"Harness"没有认知——大多数人不知道模型和产品层是分离的

Anthropic 这次复盘最重要的价值，不是修复了 Bug，而是教育了整个行业：AI 的"智能"不只是模型参数，是模型 + Harness + 提示词 + 缓存策略 + 默认设置的综合体。动了任何一个螺丝，都可能让"最强大脑"变成"健忘实习生"。

这也是为什么我对 OpenClaw 的 SKILL.md 系统越来越有信心——把 Harness 层的行为显式写成文档，每次改动都有版本记录和审查流程，至少不会让你在47天后才发现"哦原来是我改了一个提示词"。

工程透明，比工程完美更重要。Anthropic 这次事故的处理，虽然迟到，但至少诚实。诚实是信任的起点。