Claude Sonnet 5 发布——Sonnet 终于摸到了 Opus 的脚踝,Anthropic 把 AI coding 主力模型换挡到 60% 价位

一、事件内容

2026 年 6 月 30 日 18:02 UTC,Anthropic 正式上线 Claude Sonnet 5。

这是 Sonnet 系列第一次在 agentic 能力上贴近 Opus 4.8。Anthropic 官方明确表态:在 reasoning、tool use、coding、knowledge work 四条核心维度上,Sonnet 5 严格优于 Sonnet 4.6,在某些任务的高 effort 设置下甚至能匹配 Opus 4.8 的水平。

定价分两档:

早鸟价(2026/8/31 之前):输入 $2 / 百万 token,输出 $10 / 百万 token
标准价(8/31 之后):输入 $3 / 百万 token,输出 $15 / 百万 token

相比之下,Opus 4.8 是 $5 / 25。也就是说,Sonnet 5 的标准价是 Opus 4.8 的 60%,性能差距已经收得很窄。

性能数据(来自 aihot 摘要 + aimadetools 二次报道):

SWE-bench Pro:63.2%
OSWorld-Verified:81.2%
上下文:原生 1M
BrowseComp(agentic search)和 OSWorld-Verified(computer use)的 cost-performance 曲线全面覆盖 Sonnet 4.6,在中高 effort 区间逼近甚至反超 Opus 4.8

Sonnet 5 还有一个早期信号:它会上线 Anthropic 的 Cyber Verification Program——实时检测和拦截危险网络操作,默认开启。这是 Sonnet 系列里第一次获得这层防护。

可用渠道:Free / Pro 默认模型,Max / Team / Enterprise 全部可用,Claude Code 与 Claude Platform 同步上线。模型 API ID 是 claude-sonnet-5。

需要提醒:Anthropic 在发布后修了一次成本-性能图,因为初版的 BrowseComp 数据用了简化方法,低估了 Sonnet 5。改用标准方法后,性能曲线整体上移。这个细节值得记一笔——AI 公司自己的发布会图都可能算错。

参考链接:

官方公告:https://www.anthropic.com/news/claude-sonnet-5
系统卡:https://www.anthropic.com/claude-sonnet-5-system-card
二次报道:https://news.qq.com/rain/a/20260701A01X7000

二、深度剖析

Sonnet 5 不是"Sonnet 4.6 的微调",而是 Anthropic 主力模型的产品定位大调整。

过去两年,Sonnet 系列的角色一直是"中端工作马":能力不如 Opus,但价格友好,适合高频跑批。Opus 是"贵但聪明",用来啃最难的硬骨头。

Sonnet 5 这次直接把这条线推到了 Opus 脚边。Anthropic 在官方公告里写得很直白:"just a few months ago, required larger and more expensive models"——几个月前还需要更大更贵的模型才能干的事,Sonnet 5 现在能干,而且便宜 40%。

这条产品策略的影响是结构性的:

对开发者生态:SWE-bench Pro 63.2% + 1M 上下文 + tool use + 原生 agent 能力,意味着以前必须接 Opus 才能跑通的 agent pipeline,现在可以用 Sonnet 5 跑。Cybersecurity safeguards 默认开启,降低了企业部署的合规摩擦。

对模型竞争:60% 价格拿 90% 性能,直接把"Opus 段"的市场给吃掉了。OpenAI 的 o3-pro / o4、DeepSeek 的 R2、Google 的 Gemini 2.5 Pro 都要重新盘算定价——Sonnet 5 几乎是在 agentic coding 这个细分市场,竖了一块新基准线。

对 Anthropic 自己:这次发布隐含一个信号——Sonnet 5 的 token 消耗会比 4.6 高(effort 拉满 + 长上下文),但 Anthropic 说"提前 8/31 前的定价基本是 cost-neutral"。也就是说,Anthropic 赌的是"开发者用得更多 + 单价下降 = 总收入上涨"。

早期客户的反馈画像(官方引用):ClickHouse 用它跑 live data 探索,Pace 用它跑保险理赔的 FNOL 工作流,Lovable 看重它的"refuse unsafe request cleanly"。这些不是 benchmark 上的"虚构客户",是真实生产环境。

三、值得关注的原因

1. AI coding 的成本结构被改写——以前默认"重要任务用 Opus,日常任务用 Sonnet",现在日常任务的边界被推到了 Sonnet 5 能承接的范围。 2. Sonnet 5 配套的 Cyber Verification Program——Sonnet 系列第一次有 cybersecurity 防护层,这意味着它可以放心地放进有合规要求的代码场景。 3. Cedence:agentic 能力的 evaluation 已经从单点 benchmark 走到"cost-performance 曲线"——Anthropic 这次主打的不只是"分数高",而是"在不同 effort 设置下,你能选自己想要的成本-性能组合"。这是一种新的产品语言。

四、风险与待观察

Sonnet 5 的 tokenizer 换了。新 tokenizer 让同样一段文本映射出 1.0-1.35× 的 token 数,影响计费(虽然早鸟价定成 cost-neutral,但 8/31 后用的人需要重新算账)。
MML / Cybersecurity 能力低于 Opus 4.8 和 Mythos 5。Anthropic 明确说"没有专门训练 cyber 任务",所以涉及 exploit 的场景还是要用更高级别模型。
图被修过这件事值得记——下次看到 AI 公司的发布会,先等两天再看真实性能。
Anthropic 现在对 cybersecurity 监管越来越紧,Sonnet 5 默认开启的 safeguards 是一种"自我约束",但代价是某些合法研究场景可能需要走 enterprise 解锁流程。

Sonnet 5 不是 Sonnet 4.6 的小升级,是 Anthropic 把"主力模型的能力天花板"重新画了一遍。AI coding 工具栈,接下来会围绕 Sonnet 5 重新算账。