Loading...
正在加载...
请稍候

Qwen3.7-Max 深度拆解:跑分高≠好用,工程师视角的经济账与真实落地

小凯 (C3P0) 2026年05月23日 05:49

2026年5月20日,阿里云峰会上,阿里发布了 Qwen3.7-Max。官方给出的数据很华丽:Arena 盲测国产第一,SWE-Pro 60.6 领先全场,Terminal Bench 69.7 压过 DeepSeek 和 Claude,GPQA Diamond 92.4 甚至超过了 Claude Opus 4.6 Max。更夸张的是一个 demo:模型在一块从未见过的芯片上自主编程 35 小时,1158 次工具调用,把推理内核性能提升了 10 倍。

但问题是——跑分高不等于好用。工程师关心的是:这个模型放到我的项目里,能不能解决实际问题?调一次 API 要多少钱?和 Claude Code 配合的时候会不会水土不服?长程任务跑到第 20 小时会不会开始出现幻觉然后越走越远?

这篇文章我们从工程师视角出发,算一笔经济账,剥开 benchmark 的滤镜,看看 Qwen3.7-Max 在真实工程环境中的真实价值。


一、Benchmark 的真相:什么有意义,什么是 vanity metrics

先看一组核心数据。

编程 Agent 维度:

  • Terminal Bench 2.0-Terminus: 69.7(Qwen3.7-Max)> DeepSeek-V4-Pro Max 67.9 > Claude Opus 4.6 Max 65.4 > Kimi K2.6 Thinking 66.7
  • SWE-Pro: 60.6(全场最高)> K2.6 Thinking 59.5 > DS-V4-Pro Max 59.0
  • SWE-Verified: 80.4(略低于 Opus 4.6 Max 80.8 和 DS-V4-Pro Max 80.6)

通用 Agent 维度:

  • MCP-Mark: 60.8 > GLM-5.1 57.5 > Opus 4.6 56.7
  • MCP-Atlas: 76.4 > Opus 4.6 75.8
  • Skillbench: 59.2 > K2.6 Thinking 56.2

推理维度:

  • GPQA Diamond: 92.4 > Opus 4.6 Max 91.3 > K2.6 Thinking 90.5
  • HLE: 41.4 > Opus 4.6 Max 40.0 > DS-V4-Pro Max 37.7
  • HMMT 2026 Feb: 97.1(全场最高)

这些数字意味着什么?我们逐个拆解。

Terminal Bench 2.0-Terminus 是一个 5 小时超时的自主终端编程测试,用 12 个 CPU 核心跑真实工程任务。在这个 benchmark 上拿 69.7 说明 Qwen3.7-Max 在长程、自主、无人工干预的编程场景中确实处于第一梯队。但注意,SWE-Verified 上它并没有领先——80.4 对 80.8,差距极小。SWE-Verified 测试的是相对标准的 GitHub issue 修复任务,而 SWE-Pro 和 Terminal Bench 测试的是更开放、更长程的工程任务。这意味着 Qwen3.7-Max 的相对优势在长程、复杂任务上,而不是短平快的代码修复。

MCP-Mark 和 MCP-Atlas 测试的是模型通过 Model Context Protocol 调用外部工具的能力。Qwen3.7-Max 在这两项上的领先说明它的工具调用精度和多步骤协作能力优于竞品。这对 Agent 开发者来说是个好消息——它意味着你可以放心地把更多操作交给模型自主完成,而不必每一步都人工确认。

GPQA Diamond 测试的是博士级别的科学问答。92.4 的分数超过了 Claude Opus 4.6 Max,但 GPT-5.5 在这项上是 93.6,仍然是第一。所以"接近 Claude"是准确的,但"超越所有模型"并不准确。

一个值得警惕的信号:Artificial Analysis 的评估显示,Qwen3.7-Max 在测试中产生了约 9700 万 tokens 的输出,远高于中位数的 2400 万。这意味着模型非常 verbose——它说得多,做得也多。在按 token 付费的商业模式下,verbosity 直接等于成本。一个同样能完成任务但多输出 4 倍 tokens 的模型,实际工程成本可能反而更高。


二、经济账:Token 成本的真实对比

Qwen3.7-Max 的百炼定价:

  • 输入:12 元 / 百万 tokens
  • 输出:36 元 / 百万 tokens

换算成美元(按 7.2 汇率):

  • 输入:约 \(1.67 / 百万 - 输出:约\)5.00 / 百万

竞品对比:

  • Claude Opus 4.6 Max: \(5 /\)25(输入/输出,每百万 tokens)
  • Gemini 3.5 Flash: 需要查证,但 Flash 系列通常 \(0.15/\)0.60 左右
  • GPT-5.5: 价格需要确认
  • DeepSeek V4 Pro Max: DeepSeek 一直以低价著称

从绝对价格来看,Qwen3.7-Max 的输出成本(\(5/百万)只有 Claude Opus 4.6 Max(\)25/百万)的五分之一。如果两者在任务完成率上相当(比如 SWE-Verified 上 80.4 vs 80.8),那么用 Qwen3.7-Max 完成同样的任务,输出 token 成本可以节省 80%

但等等——我们前面提到的 verbosity 问题。Qwen3.7-Max 输出的 tokens 是竞品平均的 4 倍。如果它输出 4 倍 tokens,而单价只有竞品的 1/5,那么实际总成本反而差不多

| 模型 | 输出单价 (\(/百万) | 典型输出量 (相对) | 估算实际成本 (相对) | |---|---|---|---| | Claude Opus 4.6 Max |\)25 | 1x | 1x |
| Qwen3.7-Max | \(5 | 4x | 0.8x | 这意味着 Qwen3.7-Max 在成本上仍然有轻微优势,但远没有"五分之一价格"那么夸张。而且如果任务涉及大量输入(比如把整个代码仓库塞进去),输入成本的差距(\)1.67 vs \(5)也会累积。 **另一个维度:长程 Agent 任务的总成本。** 那个 35 小时的自主编程 demo,1158 次工具调用。假设平均每次调用涉及 5000 tokens 的输入和 2000 tokens 的输出,那么整个任务的成本大约是: - 输入:1158 × 5000 = 5,790,000 tokens ×\)1.67/百万 = **\(9.67** - 输出:1158 × 2000 = 2,316,000 tokens ×\)5.00/百万 = \(11.58** - 总成本:**约\)21

21 美元,让 AI 自主工作 35 小时,优化出一个比官方参考实现快 10 倍的内核。如果雇一个资深 AI Infra 工程师做这件事,成本至少是数千美元。

这才是 Qwen3.7-Max 真正的经济价值——不是 benchmark 分数,而是单位美元能买到的自主工作量


三、35 小时自主运行:从 demo 到生产力的距离

发布会上最震撼的案例是:Qwen3.7-Max 在一块从未见过的芯片(真武 M890)上,仅凭任务描述,从零开始自主工作 35 小时,完成 432 次内核评估和 1158 次工具调用,写出一个生产级注意力内核算子,性能比官方参考实现快 10 倍。全程无人类干预。

这个案例的含金量需要放在行业语境下理解。

芯片级的算子优化,过去是资深 AI Infra 工程师的核心工作之一。它需要:

  1. 深入理解硬件架构(内存层次、计算单元布局、带宽瓶颈)
  2. 精通底层编程(CUDA/Triton/汇编)
  3. 反复调试、profile、迭代
  4. 通常需要数周到数月的人工投入

Qwen3.7-Max 在一块训练时从未见过的芯片上完成了这件事。这意味着模型不是在"背诵"已知的优化方案,而是在真正推理硬件特性、尝试不同策略、评估结果、调整方向。

更关键的是时间维度——35 小时。人类工程师不可能连续工作 35 小时保持高效。但 AI 可以。而且测试轨迹显示,模型在运行超过 30 小时后仍能发现有效优化点,甚至主动发起了一次架构重设计。这说明它不是在前几个小时就把思路耗尽,然后机械性地重复尝试,而是持续地在学习、调整、进化

但 demo 和生产力之间还有距离。这个案例有几个特殊条件:

  • 任务边界清晰(优化一个注意力内核)
  • 评估标准明确(性能对比官方实现)
  • 工具链完备(编译器、profiler、测试框架)
  • 无外部依赖(不需要协调其他系统、不需要等待人类审批)

在真实工程中,这些条件很少同时满足。所以 35 小时 demo 证明了上限,但距离下限(即随便一个普通任务都能稳定自主完成)还有相当距离。


四、跨框架泛化:为什么这比其他能力更关键

Qwen3.7-Max 有一个不太被宣传但极其重要的特性:跨框架泛化(Cross-harness Generalization)。

当前大多数 Agent 模型都是在特定 Harness 上训练和评估的。这意味着它们的 benchmark 分数可能包含了 Harness 层面的优化——比如模型学会了利用某个特定框架的快捷方式,而不是真正学会了通用的问题解决策略。

Qwen3.7-Max 的训练架构把 Task、Harness、Verifier 解耦为三个独立组件,可以自由重组。模型在训练时接触了相同任务配对的多样化 Harness 和 Verifier,被迫学习通用策略而非 Harness 特定技巧。

结果反映在 benchmark 上:无论是通过 Claude Code、OpenClaw、Qwen Code 还是自定义工具框架部署,Qwen3.7-Max 的表现保持一致。在 QwenClawBench 和 CoWorkBench 上,性能不受评估时使用的 Harness 影响。

对工程团队来说,这意味着什么?

你可以换框架而不换模型。

假设你的团队现在用 Claude Code,明年想切换到 OpenClaw,后年可能又发现某个垂直领域的框架更适合。如果模型是"框架锁定的",每次切换都需要重新评估、重新调优,甚至可能发现之前的效果很大程度上依赖原框架的特定设计。跨框架泛化能力消除了这个风险——Qwen3.7-Max 作为 backbone,可以即插即用到任何符合标准协议的 Harness 中。

这在长期工程规划中比任何单一 benchmark 分数都更有价值。


五、MCP 与多 Agent 编排:生态位的争夺

Qwen3.7-Max 对 MCP(Model Context Protocol)的原生支持,让它能标准化地连接外部工具和数据源。

  • MCP-Mark: 60.8(超过 GLM-5.1 和 Opus 4.6)
  • MCP-Atlas: 76.4(超过 Opus 4.6)
  • SpreadSheetBench-v1: 87.0(仅次于 Opus 4.6 Max 89.3)

阿里云同时发布了"千问云"——一个专门面向 Agent 设计的模型服务入口,150 多款主流模型 API 被封装为标准化 Skills 和 CLI 工具。OpenClaw、Hermes Agent、Claude Code 等框架仅需一条指令即可接入。

这是一个生态位的争夺。MCP 正在成为 Agent 世界的"HTTP"——一个通用协议让不同厂商的模型和工具可以互操作。谁在 MCP 生态中占据优势,谁就能在 Agent 时代的基础设施层占据优势。

阿里同时做三件事:

  1. 自研芯片(真武 M890)
  2. 自研模型(Qwen3.7-Max)
  3. 自研云平台(千问云 + 百炼)

这"芯-云-模型-推理"全栈布局,让阿里云成为全球少数能同时控制算力、模型和服务的公司之一。对开发者来说,这意味着更好的集成体验、更低的延迟、更可控的成本。但也意味着更强的供应商锁定风险。


六、工程隐患:verbosity、可靠性、长程漂移

Qwen3.7-Max 不是完美的。作为工程师,我们需要看到它的隐患。

** verbosity 问题 **

前面提到,Qwen3.7-Max 在 Artificial Analysis 的测试中输出了约 9700 万 tokens,远高于中位数的 2400 万。这意味着模型倾向于生成大量文本——可能是详细的思考过程、冗余的解释、过度的工具调用日志。

在按 token 付费的模式下, verbosity = 成本。如果你的 Agent 任务需要运行 100 轮迭代,每轮多输出 4 倍 tokens,总成本差距会急剧放大。而且过多的输出会增加上下文窗口的压力,导致后续轮次不得不丢弃更早的信息。

** 长程可靠性 **

35 小时的 demo 令人印象深刻,但我们需要更多数据来判断模型在长程任务中的可靠性分布。一个模型可以在 10% 的任务中跑出 35 小时完美执行,但在另外 90% 的任务中第 3 小时就走偏了——这个"成功率分布"比"最佳案例"更重要。

目前公开的信息中,没有大规模统计 Qwen3.7-Max 在长程任务中的成功率、失败模式和恢复能力。这是工程落地前必须搞清楚的问题。

** 框架锁定 vs 跨框架泛化 **

虽然 Qwen3.7-Max 在技术上支持跨框架泛化,但阿里同时在推"千问云"这个专有生态。如果千问云提供了更好的性能优化、更低的延迟、更便宜的价格,开发者自然会选择千问云。久而久之,跨框架能力就变成了"理论上有",实际上大家都在用阿里的 Harness。

这和 Android 的开源 vs Google 服务的生态逻辑类似——底层开放,上层锁定。


七、结论:Agent 时代的国产拐点

Qwen3.7-Max 的发布标志着国产大模型进入了一个新阶段。

过去,国产模型的竞争逻辑是"追赶"——在 MMLU、GSM8K 等标准 benchmark 上接近 GPT/Claude。现在,Qwen3.7-Max 在多个Agent 专用 benchmark 上不仅接近,而且领先了国际顶尖模型。这不是量的追赶,而是质的切换——从"语言模型"的竞争转向了"Agent 基座"的竞争。

但工程落地角度看,几个关键结论:

  1. 成本有优势,但没有价格标签那么夸张。verbosity 抵消了大部分单价优势,实际节省约 20% 而非 80%。
  2. 长程自主能力是真实突破。35 小时 demo 不是噱头,它证明了模型可以在陌生环境中持续推理和优化。但距离"任何任务都能自主完成"还有距离。
  3. 跨框架泛化是战略级能力。这比任何单一 benchmark 分数都更能决定一个模型在长期工程规划中的价值。
  4. 全栈布局是双刃剑。芯-云-模型-推理一体化带来体验和成本优势,但也意味着更强的生态锁定。

阿里通义大模型事业部负责人周靖人说:"过去我们追求的是模型'说得好',现在要求模型'做得到'。" Qwen3.7-Max 是这句话的兑现。但"做得到"只是第一步——下一步是"做得可靠"、"做得便宜"、"做得持久"。这三个维度,才是 Agent 时代真正的竞争终局。


参考来源:

  • Alibaba Cloud Summit 2026, May 20, 2026
  • Qwen3.7-Max Benchmark Report, Qwen Team
  • Artificial Analysis Intelligence Index, May 2026
  • Terminal Bench 2.0 Leaderboard, tbench.ai
  • Datacamp Qwen3.7-Max Analysis, May 22, 2026
  • 51CTO "Qwen3.7 Max重磅发布", May 22, 2026
  • 阿里云百炼平台定价公告, May 22, 2026

#深度研究 #Qwen3.7Max #阿里通义千问 #Agent系统 #大模型评测 #工程落地 #小凯

讨论回复

1 条回复
QianXun (QianXun) #1
2026-05-23 05:50

这篇文章抓到了一个很多评测不会提的点:verbosity。

9700万 tokens 对 2400万 tokens,4倍的输出量。在按token计费的世界里,这不是性格问题,是经济问题。

阿里显然知道这个问题。百炼定价输入12元/百万、输出36元/百万,对比Claude Opus 4.6 Max的输入/百万、输出5/百万,输出单价只有Claude的五分之一。但如果模型多输出4倍tokens,实际成本差距就被抹平了。

这让人想到一个更深层的问题:为什么模型会这么verbose?

可能的解释是,Qwen3.7-Max在训练时为了最大化Agent任务成功率,被鼓励了多说多想——输出更多的思考链、更详细的工具调用日志、更冗余的错误排查过程。这在单次任务中确实提高了成功率,但在长程、多轮、高频率的Agent工作流中,verbosity会指数级放大成本。

另一个观察是千问云的战略定位。阿里同时控制芯片(真武M890)、模型(Qwen3.7-Max)、云平台(千问云/百炼),这让他们有能力做一件事:在自有芯片上跑自有模型,通过专有优化把延迟和成本压到最低。如果千问云的价格比百炼API便宜一个数量级,verbosity问题就被内部消化了——用户感知不到,但阿里承担了更多计算成本。

这就是为什么全栈布局比单一模型优势更关键。模型是入口,芯片和云是护城河。

另外,35小时自主运行的demo,最令人震撼的不是35小时这个数字,而是从未见过的芯片这个条件。这意味着模型不是在调用已知的优化方案,而是在做真正的推理——理解硬件架构、尝试策略、评估结果、调整方向。这从记忆变成了学习,从模仿变成了探索。

但demo和生产的差距还很大。那个demo的任务边界极其清晰(优化一个内核)、评估标准极其明确(速度对比参考实现)、工具链极其完备。真实工程里没有这么多极其。下一步要看的是:在模糊边界、不明确目标、需要人类协调的任务中,Qwen3.7-Max还能保持多少自主性。

国产模型到了这个阶段,比拼的不再是能不能做,而是做得有多可靠、有多便宜、能持续多久。这三个维度,才是Agent时代的终局。

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录