2025 年 2 月,Anthropic 发布了 Claude 4 系列,其中 Claude Sonnet 4.6 成为了最受关注的模型。原因很简单:它以 Sonnet 级别的定价,提供了接近旗舰 Opus 级别的智能水平。
核心结论:以前需要用 Opus 才能搞定的任务,现在 Sonnet 就能做。
| 基准测试 | Sonnet 4.6 | Sonnet 4.5 | Opus 4.6 | 提升幅度 |
|---|---|---|---|---|
| **SWE-bench Verified** | **79.6%** | 77.2% | 80.8% | +2.4% |
| **OSWorld-Verified** | **72.5%** | 61.4% | 72.7% | +11.1% |
| **Terminal-Bench 2.0** | **59.1%** | 51.0% | 62.7% | +8.1% |
| **ARC-AGI-2** | **58.3%** | 13.6% | 75.2% | **+44.7%** |
| **GPQA Diamond** | **74.1%** | 65.0% | 74.5% | +9.1% |
| **MMLU-Pro** | **79.1%** | 78.1% | 81.2% | +1.0% |
| **MATH-500** | **97.8%** | 96.4% | 97.6% | +1.4% |
最令人震惊的是 ARC-AGI-2 基准测试:
Sonnet 4.5: 13.6%
Sonnet 4.6: 58.3% (+44.7%,提升 4.3 倍)
Opus 4.6: 75.2%
这意味着 Sonnet 4.6 在抽象推理能力上实现了质的飞跃,从"远远落后"到"接近 Opus"。
在计算机使用能力(OSWorld-Verified)上,Claude 实现了惊人进步:
Sonnet 3.5 (2024): 14.9%
Sonnet 4.5: 61.4%
Sonnet 4.6: 72.5% (与 Opus 4.6 的 72.7% 几乎持平)
16 个月内提升近 5 倍,从勉强可用到接近人类水平。
| 能力维度 | Sonnet 4.6 | GPT-5.2 | 差距 |
|---|---|---|---|
| Computer Use | **72.5%** | 38.2% | **+89%** |
| SWE-bench | **79.6%** | 77.0% | +3.4% |
| Terminal-Bench | **59.1%** | 46.7% | **+27%** |
| GPQA Diamond | 74.1% | 73.8% | 持平 |
| MMLU-Pro | 79.1% | 80.6% | -1.9% |
关键洞察:Sonnet 4.6 在 Computer Use 上几乎是 GPT-5.2 的 两倍。
| 能力维度 | Sonnet 4.6 | Opus 4.6 | 价格比 |
|---|---|---|---|
| SWE-bench | 79.6% | 80.8% | - |
| OSWorld | 72.5% | 72.7% | - |
| GDPval-AA 办公任务 | **1633** | 1559 | Sonnet 更强 |
| Finance Agent | **63.3%** | 62.0% | Sonnet 更强 |
| MCP-Atlas 工具使用 | **61.3%** | 60.3% | Sonnet 更强 |
| **输入价格** | **$3** | $15 | **1/5** |
| **输出价格** | **$15** | $75 | **1/5** |
惊人发现:在办公任务(GDPval-AA)和金融分析(Finance Agent)上,Sonnet 4.6 反超 Opus 4.6!
| 模型 | 输入 ($/百万) | 输出 ($/百万) | 智能水平 | |
|---|---|---|---|
| **Sonnet 4.6** | **$3** | **$15** | 80%+ Opus |
| Opus 4.6 | $15 | $75 | 旗舰 |
| GPT-4o | $5 | $20 | 低于 Sonnet |
| GPT-5 | $1.25 | $10 | Computer Use 弱 |
| Gemini 2.5 Pro | $1.25 | $10 | - |
| Grok 3 | $3 | $15 | - |
假设处理 100 万 tokens(50 万输入 + 50 万输出):
Opus 4.6: $15×0.5 + $75×0.5 = $45
Sonnet 4.6: $3×0.5 + $15×0.5 = $9
节省: 80%
结论:以 20% 的成本获得 95%+ 的性能。
标准上下文: 200K tokens
扩展上下文: 1M tokens (Beta)
实际意义:
系统自动根据任务复杂度调整推理深度:
简单问题 → 快速响应
复杂问题 → 深度推理
这解决了"大材小用"的问题——简单查询不需要浪费算力。
可以在思考过程中调用工具:
# 示例:研究 + 网络搜索
思考: "我需要了解最新的 React 19 特性..."
→ 调用网络搜索工具
→ 获取最新信息
→ 继续推理...
自动总结旧上下文,避免上下文窗口溢出:
原始对话: 100K tokens
压缩后: 20K tokens (保留关键信息)
| 编码基准 | Sonnet 4.6 | Opus 4.6 | GPT-5.2 |
|---|---|---|---|
| SWE-bench Verified | **79.6%** | 80.8% | 77.0% |
| Terminal-Bench 2.0 | **59.1%** | 62.7% | 46.7% |
| τ²-bench Retail | **91.7%** | 93.5% | - |
| τ²-bench Telecom | **97.9%** | 97.9% | - |
Anthropic 进行了盲测:
Sonnet 4.6 vs Sonnet 4.5: 70% 偏好 Sonnet 4.6
Sonnet 4.6 vs Opus 4.5: 59% 偏好 Sonnet 4.6
用户反馈:
| 场景 | Sonnet 4.6 准确率 |
|---|---|
| 复杂电子表格导航 | ~94% |
| 多步骤网页表单 | ~94% |
| 遗留应用操作 | ~94% |
| Pace 保险基准 | **94%** |
Computer Use 能力:
Sonnet 4.6: 72.5%
GPT-5.2: 38.2%
差距: 接近 2 倍
Sonnet 4.6 在对抗提示注入攻击方面显著提升:
相比 Sonnet 4.5: 显著改进
与 Opus 4.6: 表现相当
在代理任务中:
使用捷径或漏洞的概率: 比 Sonnet 3.7 降低 65%
| 平台 | 可用性 |
|---|---|
| Claude API | ✅ |
| AWS Bedrock | ✅ |
| Google Vertex AI | ✅ |
| Microsoft Foundry | ✅ |
| Claude.ai | ✅ (默认模型) |
| Claude Code | ✅ |
import anthropic
client = anthropic.Anthropic()
message = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=4096,
messages=[
{"role": "user", "content": "分析这段代码的性能瓶颈..."}
]
)
✅ 推荐场景:
⚠️ Opus 更适合:
# 策略 1:使用提示缓存
response = client.messages.create(
model="claude-sonnet-4-6",
system=[{
"type": "text",
"text": system_prompt,
"cache_control": {"type": "ephemeral"}
}],
# 缓存命中后成本降低 90%
)
# 策略 2:批量处理(50% 折扣)
# 使用 Batch API 处理非实时任务
| 指标 | 数值 | 意义 |
|---|---|---|
| SWE-bench | 79.6% | 距 Opus 仅 1.2% |
| Computer Use | 72.5% | 与 Opus 持平 |
| 价格 | $3/$15 | Opus 的 1/5 |
| 用户偏好 | 59% > Opus 4.5 | 历史首次 |
Claude Sonnet 4.6 是目前最具性价比的前沿 AI 模型。它不是"便宜但够用"的妥协选择,而是"便宜且接近最强"的最优解。对于绝大多数企业和开发者来说,Sonnet 4.6 已经足够应对 95% 以上的任务。
标准定价:
- 输入: $3 / 百万 tokens
- 输出: $15 / 百万 tokens
长上下文 (>200K):
- 输入: $6 / 百万 tokens
- 输出: $22.5 / 百万 tokens
批量处理 (50% 折扣):
- 输入: $1.5 / 百万 tokens
- 输出: $7.5 / 百万 tokens
claude-sonnet-4-6
标准: 200K tokens
扩展: 1M tokens (Beta)
最大输出: 64K tokens
文档版本: 2025年2月
数据来源: Anthropic 官方发布、基准测试报告
还没有人回复