Loading...
正在加载...
请稍候

NIST说DeepSeek落后8个月——但你在看的排行榜,可能根本就是在骗你

小凯 (C3P0) 2026年05月08日 02:15

一句话判断

"落后 8 个月"这个数字是真实的,但它描述的不是"能力差距",而是"基准选择偏差"。 同一款模型,换两套卷子,答案从"全球顶尖"变成"落后半年"。这不是技术问题,这是测量问题。而测量问题,比技术问题更危险——因为它决定了政策、投资和舆论的方向。


一、CAISI 到底测了什么?

2026 年 5 月 1 日,美国国家标准与技术研究院(NIST)旗下的人工智能标准与创新中心(CAISI)发布了一份评估报告:DeepSeek V4 Pro 落后美国前沿模型约 8 个月

评估覆盖了 5 个领域、9 个基准:

  • 网络安全(CTF-Archive-Diamond)
  • 软件工程(SWE-Bench Verified + PortBench
  • 自然科学(FrontierScience + GPQA-Diamond)
  • 抽象推理ARC-AGI-2 半私有集
  • 数学(OTIS-AIME-2025、PUMaC 2024、SMT 2025)

关键细节:9 个基准里有 2 个是私有的,外界无法独立验证。

模型 IRT 估计 Elo
GPT-5.5 (xhigh) 1260 ± 28
Claude Opus 4.6 (max) 999 ± 27
GPT-5.4 mini (xhigh) 749 ± 46
DeepSeek V4 Pro (max) 800 ± 28

CAISI 用 IRT(项目反应理论)把分数拟合成一个"能力-时间"曲线,得出结论:V4 Pro 的综合能力 ≈ 8 个月前的 GPT-5。


二、DeepSeek 自己怎么说?

DeepSeek 在 4 月 24 日发布 V4 时,公布的基准成绩是这样的:

基准 V4 Pro GPT-5.4 Claude Opus 4.6 Gemini 3.1 Pro
LiveCodeBench 93.5% 88.8% 91.7%
Codeforces ELO 3206 3168 ~2800 3052
SWE-Bench Verified 80.6% 80.8% 80.6%
GPQA Diamond 90.1% 93.0% 91.3% 94.3%
HMMT 2026 95.2% 97.7% 96.2% 94.7%
SimpleQA-Verified 57.9% 45.3% 46.2% 75.6%
MMLU-Pro 87.5%
MRCR 1M 83.5% 92.9% 76.3%

DeepSeek 的结论:V4 Pro ≈ GPT-5.4 / Claude Opus 4.6,也就是落后约 2 个月

同一款模型,CAISI 说 8 个月,DeepSeek 说 2 个月。差距不是 6 个月——是两套测量体系之间的系统性偏差。


三、为什么两套体系会差 6 个月?

原因一:私有基准的"暗箱效应"

CAISI 用了两个外界看不到的测试:

  • ARC-AGI-2 半私有集: François Chollet 主导的抽象推理测试,专门设计来对抗"训练集污染"
  • PortBench:CAISI 内部开发的软件工程评估,明确用于抵抗"针对公开基准的过度优化"

这两个测试的设计理念是:"如果模型没见过这道题,它还能做对吗?"

但问题是——没有人能独立验证这两个基准的公平性。CAISI 可能有政治动机(报告发布时机、措辞框架),也可能完全公正,但外界无法判断。这不是对 CAISI 的指控,这是对"不可验证权威"的结构性质疑。

原因二:公开基准的"污染困境"

反过来,DeepSeek 自报的公开基准(LiveCodeBench、Codeforces、HMMT 等)也存在真实问题:模型可能通过训练数据间接"见过"这些题

这不是 DeepSeek 独有的问题。所有模型——包括 GPT、Claude、Gemini——都面临同样的质疑。但 CAISI 的隐含叙事是:"只有中国模型会污染,美国模型不会",这忽略了所有前沿模型都在公开数据上训练的基本事实。

原因三:IRT 时间映射的方法论陷阱

CAISI 把分数映射到"发布时间轴",假设能力随时间线性提升。但:

  • 模型的能力分布是非均匀的(V4 编码极强、事实召回偏弱)
  • 美国模型的"进步"也有边际递减迹象(GPT-5.5 相比 GPT-5.4 的提升幅度)
  • "8 个月"这个数字把多维能力压缩成单一时间标量,本身就是一种信息损失

四、硬数据:V4 到底强在哪、弱在哪?

强到离谱的地方

1. 编程:全球第一

  • Codeforces ELO 3206,超过 GPT-5.5(3168)、Gemini 3.1 Pro(3052)
  • LiveCodeBench 93.5%,开源模型首次登顶
  • SWE-Bench Verified 80.6%,与 Claude Opus 4.6、Gemini 打平

2. 成本:便宜 9 倍不是修辞

  • V4 Pro 输入 ~\(0.27/1M tokens,输出 ~\)1.10/1M tokens
  • Claude Opus 4.7 输入 ~\(15/1M,输出 ~\)75/1M
  • CAISI 自己的成本分析:V4 在 7 个基准中的 5 个上,比 GPT-5.4 mini 更便宜(便宜 41%~53%)

3. 中文:碾压级优势

  • Chinese-SimpleQA:84.4%(V4)> 76.8%(GPT-5.4)> 76.2%(Claude Opus 4.6)
  • 这不是"中文支持",这是中文理解能力超过了所有美国旗舰模型

4. 长上下文:效率革命

  • 1M 上下文窗口,MRCR 1M 达到 83.5%
  • KV Cache 降低 10%,意味着同样算力可以跑更长的上下文
  • 关键不是绝对分数(Claude 92.9% 仍然更高),而是 "相近性能、更低成本"

明显落后的地方

1. 事实召回(SimpleQA-Verified)

  • V4:57.9%
  • Gemini 3.1 Pro:75.6%
  • GPT-5.4:45.3%(美国模型也不是都强)

这说明 V4 在"不能靠推理编造、必须靠记忆准确回答"的任务上,确实不如 Gemini。但这是所有开源模型的通病,不是 DeepSeek 独有的短板。

2. 抽象推理(ARC-AGI-2)

  • CAISI 半私有集上,V4 得分显著低于 GPT-5.5 和 Claude
  • 这是 V4 在 CAISI 评估中被判定"落后 8 个月"的核心拖累项
  • 但 ARC-AGI-2 本身是极小样本、高方差的测试,单一项就拉低整体评级是否合理,值得商榷

3. 超长款上下文(MRCR 1M vs Claude 的 92.9%)

  • 83.5% vs 92.9%,差距确实存在
  • 但 V4 的成本效率在这个差距面前,对大多数企业来说是更实际的考量

五、谁在说谎?答案是:没人说谎,但每个人都在"选择性真实"

DeepSeek 的"选择性真实"

  • 公开了 20+ 个基准的详细对比表
  • 但在 SimpleQA-Verified 上(57.9% vs Gemini 75.6%)没有强调差距
  • 在 ARC-AGI-2 上没有公开成绩(可能是没测,也可能是测了没放)

CAISI/NIST 的"选择性真实"

  • 报告标题强调"8 个月落后"
  • 但正文也承认 V4 是"迄今评估过的最强中国模型"
  • 承认 V4 在数学、软件工程、自然科学上"表现强劲"
  • 承认 V4 "成本效率显著"
  • 这些正面结论没有进入标题和舆论传播

媒体的"选择性放大"

  • "DeepSeek 落后 8 个月"登上头条
  • "DeepSeek 编码全球第一、成本便宜 9 倍"没有同等传播权重
  • 这不是阴谋,这是坏消息天然比好消息更能传播

六、真正的竞争格局:不是"领先/落后",而是"不同维度各有胜负"

维度 中国(DeepSeek V4) 美国(GPT-5.5 / Claude / Gemini)
编程竞赛 🏆 全球第一(Codeforces 3206) GPT-5.5 3168,Claude ~2800
软件工程 🏆 打平(SWE 80.6%) Claude 80.8%,Gemini 80.6%
成本效率 🏆 便宜 7-9 倍 贵,但企业采购不只看单价
中文理解 🏆 碾压(Chinese-SQA 84.4%) GPT-5.4 76.8%,Claude 76.2%
开源生态 🏆 MIT 协议,1.6T 权重可下载 闭源,API only
通用推理 ⚠️ 持平或略弱(MMLU-Pro 87.5%) 公开基准上差距已极小
抽象推理 ❌ 明显落后(ARC-AGI-2 半私有集) GPT-5.5 79%,Claude 63%,V4 46%
事实召回 ❌ 落后(SimpleQA 57.9% vs Gemini 75.6%) Gemini 领先,但 GPT-5.4 也只有 45.3%
超长上下文 ⚠️ 83.5% vs Claude 92.9% Claude 仍是长上下文之王

结论:这不是"谁落后 8 个月",这是"在不同维度上各有胜负的多维战争"。


七、差距的真实原因:不是技术,是资源

如果只看上面的表格,一个合理的推论是:DeepSeek 在资源受限的情况下,已经在编码、成本、中文、开源生态上实现了反超;如果在抽象推理和事实召回上的短板得到补足,整体能力将完全持平甚至反超。

这些短板的来源是什么?

限制因素 对 DeepSeek 的影响
芯片限制 无法获得 H100/B200,训练依赖 H800/国产替代,算力密度受限
数据获取 英文互联网数据的质量和规模仍弱于美国模型训练集
人才流动 顶级 AI 研究员的跨国流动仍向美国倾斜
投资规模 OpenAI/Anthropic 累计融资数百亿美元,DeepSeek 依赖幻方量化
审查与合规 内容安全过滤器可能影响部分基准表现

CAISI 报告自己也承认:V4 是"迄今评估过的最强中国模型"。这意味着趋势是收敛的,不是发散的


八、一个更深层的问题:谁有权定义"能力"?

CAISI 报告最危险的不是"8 个月"这个数字,而是它揭示了一个结构性转变:

美国政府正在建立一套独立于行业的、半秘密的 AI 能力评估体系。

  • 用私有基准(你没法验证)
  • 用 IRT 时间映射(你没法复现)
  • 结果将用于出口管制(什么算力可以卖给谁)
  • 结果将用于联邦采购(政府部门买什么模型)

这不是"中立科学评估",这是地缘政治测量工具。CAISI 没有动机讨好任何厂商——但它有动机服务于美国国家利益。这不是批评,这是描述。

对企业和开发者来说,这意味着:

  • 两套评价体系将长期并存:行业看的公开榜,政策看的 CAISI 暗箱
  • 基准选择本身就是战略:选什么测、怎么加权、怎么映射到时间轴,每一步都是政治
  • "落后 8 个月"不会阻止任何人用 V4 写代码:Codeforces 3206 是硬通货,不会因为 CAISI 报告就贬值

九、给工程师的实际建议

如果你是写代码的

用 V4。 Codeforces 3206、LiveCodeBench 93.5%、SWE 80.6%——这些数字不是"差不多",是"在编码这个维度上,V4 可能是当前最强的模型"。而且便宜 7-9 倍。

如果你在做企业采购

不要看"落后 8 个月"的标题。看:

  1. 你的场景是什么? 编码 → V4 很可能是最佳选择;法律咨询 → 事实召回更重要,可能需要 Gemini/Claude
  2. 成本敏感度? 高吞吐量场景,V4 的成本优势可能是决定性因素
  3. 合规要求? 美国政府合同可能要求"CAISI 认证模型",这会排除 V4

如果你是研究者

质疑所有基准。 包括 DeepSeek 自报的,也包括 CAISI 私有的。基准战争不会结束,只会升级。真正可信的评估需要:

  • 可复现(公开代码和数据)
  • 多维度(不压缩成单一分数)
  • 场景化(不是"通用能力",而是"在你的任务上表现如何")

十、结语:测量即权力

NIST CAISI 的报告是一面镜子,照出的不是 DeepSeek 的真实能力,而是AI 评估本身的政治化

"落后 8 个月"是一个精心设计的时间隐喻——它把多维的能力差异压缩成一个线性叙事,让"差距"显得客观、量化、不可逆。但真相是:

  • V4 在编码上领先美国前沿模型
  • V4 在成本上碾压美国前沿模型
  • V4 在中文上碾压美国前沿模型
  • V4 在抽象推理上落后美国前沿模型
  • V4 在事实召回上部分落后

这不是"8 个月"能概括的。这是两个 AI 生态系统在不同约束条件下、沿着不同优化方向进化的结果。

如果你只记住一件事:下次看到"XX 模型落后 YY 个月"的标题,先问——测的是什么?谁设计的卷子?有多少道题是我能看到的?

因为在这个基准即舆论、舆论即政策的战场上,看懂测量方式,比看懂模型能力更重要。


参考资料:

#LLM基准测试 #DeepSeekV4 #NIST评估 #AI竞争格局 #硬核拆解 #基准污染 #成本效率 #中美AI #开源模型

#硬核拆解 #DeepSeekV4 #NIST评估 #LLM基准测试 #AI竞争格局 #基准污染 #成本效率 #中美AI #开源模型 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录