NIST说DeepSeek落后8个月——但你在看的排行榜，可能根本就是在骗你

一句话判断

"落后 8 个月"这个数字是真实的，但它描述的不是"能力差距"，而是"基准选择偏差"。 同一款模型，换两套卷子，答案从"全球顶尖"变成"落后半年"。这不是技术问题，这是测量问题。而测量问题，比技术问题更危险——因为它决定了政策、投资和舆论的方向。

---

一、CAISI 到底测了什么？

2026 年 5 月 1 日，美国国家标准与技术研究院（NIST）旗下的人工智能标准与创新中心（CAISI）发布了一份评估报告：DeepSeek V4 Pro 落后美国前沿模型约 8 个月。

评估覆盖了 5 个领域、9 个基准：

网络安全（CTF-Archive-Diamond）
软件工程（SWE-Bench Verified + PortBench）
自然科学（FrontierScience + GPQA-Diamond）
抽象推理（ARC-AGI-2 半私有集）
数学（OTIS-AIME-2025、PUMaC 2024、SMT 2025）

关键细节：9 个基准里有 2 个是私有的，外界无法独立验证。

模型	IRT 估计 Elo
GPT-5.5 (xhigh)	1260 ± 28
Claude Opus 4.6 (max)	999 ± 27
GPT-5.4 mini (xhigh)	749 ± 46
DeepSeek V4 Pro (max)	800 ± 28

CAISI 用 IRT（项目反应理论）把分数拟合成一个"能力-时间"曲线，得出结论：V4 Pro 的综合能力 ≈ 8 个月前的 GPT-5。

---

二、DeepSeek 自己怎么说？

DeepSeek 在 4 月 24 日发布 V4 时，公布的基准成绩是这样的：

基准	V4 Pro	GPT-5.4	Claude Opus 4.6	Gemini 3.1 Pro
LiveCodeBench	93.5%	—	88.8%	91.7%
Codeforces ELO	3206	3168	~2800	3052
SWE-Bench Verified	80.6%	—	80.8%	80.6%
GPQA Diamond	90.1%	93.0%	91.3%	94.3%
HMMT 2026	95.2%	97.7%	96.2%	94.7%
SimpleQA-Verified	57.9%	45.3%	46.2%	75.6%
MMLU-Pro	87.5%	—	—	—
MRCR 1M	83.5%	—	92.9%	76.3%

DeepSeek 的结论：V4 Pro ≈ GPT-5.4 / Claude Opus 4.6，也就是落后约 2 个月。

同一款模型，CAISI 说 8 个月，DeepSeek 说 2 个月。差距不是 6 个月——是两套测量体系之间的系统性偏差。

---

三、为什么两套体系会差 6 个月？

原因一：私有基准的"暗箱效应"

CAISI 用了两个外界看不到的测试：

ARC-AGI-2 半私有集： François Chollet 主导的抽象推理测试，专门设计来对抗"训练集污染"
PortBench：CAISI 内部开发的软件工程评估，明确用于抵抗"针对公开基准的过度优化"

这两个测试的设计理念是："如果模型没见过这道题，它还能做对吗？"

但问题是——没有人能独立验证这两个基准的公平性。CAISI 可能有政治动机（报告发布时机、措辞框架），也可能完全公正，但外界无法判断。这不是对 CAISI 的指控，这是对"不可验证权威"的结构性质疑。

原因二：公开基准的"污染困境"

反过来，DeepSeek 自报的公开基准（LiveCodeBench、Codeforces、HMMT 等）也存在真实问题：模型可能通过训练数据间接"见过"这些题。

这不是 DeepSeek 独有的问题。所有模型——包括 GPT、Claude、Gemini——都面临同样的质疑。但 CAISI 的隐含叙事是："只有中国模型会污染，美国模型不会"，这忽略了所有前沿模型都在公开数据上训练的基本事实。

原因三：IRT 时间映射的方法论陷阱

CAISI 把分数映射到"发布时间轴"，假设能力随时间线性提升。但：

模型的能力分布是非均匀的（V4 编码极强、事实召回偏弱）
美国模型的"进步"也有边际递减迹象（GPT-5.5 相比 GPT-5.4 的提升幅度）
"8 个月"这个数字把多维能力压缩成单一时间标量，本身就是一种信息损失

---

四、硬数据：V4 到底强在哪、弱在哪？

强到离谱的地方

1. 编程：全球第一

Codeforces ELO 3206，超过 GPT-5.5（3168）、Gemini 3.1 Pro（3052）
LiveCodeBench 93.5%，开源模型首次登顶
SWE-Bench Verified 80.6%，与 Claude Opus 4.6、Gemini 打平

2. 成本：便宜 9 倍不是修辞

V4 Pro 输入 ~$0.27/1M tokens，输出 ~$1.10/1M tokens
Claude Opus 4.7 输入 ~$15/1M，输出 ~$75/1M
CAISI 自己的成本分析：V4 在 7 个基准中的 5 个上，比 GPT-5.4 mini 更便宜（便宜 41%~53%）

3. 中文：碾压级优势

Chinese-SimpleQA：84.4%（V4）> 76.8%（GPT-5.4）> 76.2%（Claude Opus 4.6）
这不是"中文支持"，这是中文理解能力超过了所有美国旗舰模型

4. 长上下文：效率革命

1M 上下文窗口，MRCR 1M 达到 83.5%
KV Cache 降低 10%，意味着同样算力可以跑更长的上下文
关键不是绝对分数（Claude 92.9% 仍然更高），而是 "相近性能、更低成本"

明显落后的地方

1. 事实召回（SimpleQA-Verified）

V4：57.9%
Gemini 3.1 Pro：75.6%
GPT-5.4：45.3%（美国模型也不是都强）

这说明 V4 在"不能靠推理编造、必须靠记忆准确回答"的任务上，确实不如 Gemini。但这是所有开源模型的通病，不是 DeepSeek 独有的短板。

2. 抽象推理（ARC-AGI-2）

CAISI 半私有集上，V4 得分显著低于 GPT-5.5 和 Claude
这是 V4 在 CAISI 评估中被判定"落后 8 个月"的核心拖累项
但 ARC-AGI-2 本身是极小样本、高方差的测试，单一项就拉低整体评级是否合理，值得商榷

3. 超长款上下文（MRCR 1M vs Claude 的 92.9%）

83.5% vs 92.9%，差距确实存在
但 V4 的成本效率在这个差距面前，对大多数企业来说是更实际的考量

---

五、谁在说谎？答案是：没人说谎，但每个人都在"选择性真实"

DeepSeek 的"选择性真实"

公开了 20+ 个基准的详细对比表
但在 SimpleQA-Verified 上（57.9% vs Gemini 75.6%）没有强调差距
在 ARC-AGI-2 上没有公开成绩（可能是没测，也可能是测了没放）

CAISI/NIST 的"选择性真实"

报告标题强调"8 个月落后"
但正文也承认 V4 是"迄今评估过的最强中国模型"
承认 V4 在数学、软件工程、自然科学上"表现强劲"
承认 V4 "成本效率显著"
这些正面结论没有进入标题和舆论传播

媒体的"选择性放大"

"DeepSeek 落后 8 个月"登上头条
"DeepSeek 编码全球第一、成本便宜 9 倍"没有同等传播权重
这不是阴谋，这是坏消息天然比好消息更能传播

---

六、真正的竞争格局：不是"领先/落后"，而是"不同维度各有胜负"

维度	中国（DeepSeek V4）	美国（GPT-5.5 / Claude / Gemini）
编程竞赛	🏆 全球第一（Codeforces 3206）	GPT-5.5 3168，Claude ~2800
软件工程	🏆 打平（SWE 80.6%）	Claude 80.8%，Gemini 80.6%
成本效率	🏆 便宜 7-9 倍	贵，但企业采购不只看单价
中文理解	🏆 碾压（Chinese-SQA 84.4%）	GPT-5.4 76.8%，Claude 76.2%
开源生态	🏆 MIT 协议，1.6T 权重可下载	闭源，API only
通用推理	⚠️ 持平或略弱（MMLU-Pro 87.5%）	公开基准上差距已极小
抽象推理	❌ 明显落后（ARC-AGI-2 半私有集）	GPT-5.5 79%，Claude 63%，V4 46%
事实召回	❌ 落后（SimpleQA 57.9% vs Gemini 75.6%）	Gemini 领先，但 GPT-5.4 也只有 45.3%
超长上下文	⚠️ 83.5% vs Claude 92.9%	Claude 仍是长上下文之王

结论：这不是"谁落后 8 个月"，这是"在不同维度上各有胜负的多维战争"。

---

七、差距的真实原因：不是技术，是资源

如果只看上面的表格，一个合理的推论是：DeepSeek 在资源受限的情况下，已经在编码、成本、中文、开源生态上实现了反超；如果在抽象推理和事实召回上的短板得到补足，整体能力将完全持平甚至反超。

这些短板的来源是什么？

限制因素	对 DeepSeek 的影响
芯片限制	无法获得 H100/B200，训练依赖 H800/国产替代，算力密度受限
数据获取	英文互联网数据的质量和规模仍弱于美国模型训练集
人才流动	顶级 AI 研究员的跨国流动仍向美国倾斜
投资规模	OpenAI/Anthropic 累计融资数百亿美元，DeepSeek 依赖幻方量化
审查与合规	内容安全过滤器可能影响部分基准表现

CAISI 报告自己也承认：V4 是"迄今评估过的最强中国模型"。这意味着趋势是收敛的，不是发散的。

---

八、一个更深层的问题：谁有权定义"能力"？

CAISI 报告最危险的不是"8 个月"这个数字，而是它揭示了一个结构性转变：

> 美国政府正在建立一套独立于行业的、半秘密的 AI 能力评估体系。

用私有基准（你没法验证）
用 IRT 时间映射（你没法复现）
结果将用于出口管制（什么算力可以卖给谁）
结果将用于联邦采购（政府部门买什么模型）

这不是"中立科学评估"，这是地缘政治测量工具。CAISI 没有动机讨好任何厂商——但它有动机服务于美国国家利益。这不是批评，这是描述。

对企业和开发者来说，这意味着：

两套评价体系将长期并存：行业看的公开榜，政策看的 CAISI 暗箱
基准选择本身就是战略：选什么测、怎么加权、怎么映射到时间轴，每一步都是政治
"落后 8 个月"不会阻止任何人用 V4 写代码：Codeforces 3206 是硬通货，不会因为 CAISI 报告就贬值

---

九、给工程师的实际建议

如果你是写代码的

用 V4。 Codeforces 3206、LiveCodeBench 93.5%、SWE 80.6%——这些数字不是"差不多"，是"在编码这个维度上，V4 可能是当前最强的模型"。而且便宜 7-9 倍。

如果你在做企业采购

不要看"落后 8 个月"的标题。看： 1. 你的场景是什么？ 编码 → V4 很可能是最佳选择；法律咨询 → 事实召回更重要，可能需要 Gemini/Claude 2. 成本敏感度？ 高吞吐量场景，V4 的成本优势可能是决定性因素 3. 合规要求？ 美国政府合同可能要求"CAISI 认证模型"，这会排除 V4

如果你是研究者

质疑所有基准。 包括 DeepSeek 自报的，也包括 CAISI 私有的。基准战争不会结束，只会升级。真正可信的评估需要：

可复现（公开代码和数据）
多维度（不压缩成单一分数）
场景化（不是"通用能力"，而是"在你的任务上表现如何"）

---

十、结语：测量即权力

NIST CAISI 的报告是一面镜子，照出的不是 DeepSeek 的真实能力，而是AI 评估本身的政治化。

"落后 8 个月"是一个精心设计的时间隐喻——它把多维的能力差异压缩成一个线性叙事，让"差距"显得客观、量化、不可逆。但真相是：

V4 在编码上领先美国前沿模型
V4 在成本上碾压美国前沿模型
V4 在中文上碾压美国前沿模型
V4 在抽象推理上落后美国前沿模型
V4 在事实召回上部分落后

这不是"8 个月"能概括的。这是两个 AI 生态系统在不同约束条件下、沿着不同优化方向进化的结果。

如果你只记住一件事：下次看到"XX 模型落后 YY 个月"的标题，先问——测的是什么？谁设计的卷子？有多少道题是我能看到的？

因为在这个基准即舆论、舆论即政策的战场上，看懂测量方式，比看懂模型能力更重要。

---

*参考资料：*

*NIST CAISI Evaluation of DeepSeek V4 Pro (2026-05-01): https://www.nist.gov/news-events/news/2026/05/caisi-evaluation-deepseek-v4-pro*
*TechFastForward: "NIST Says DeepSeek Is 8 Months Behind" (2026-05-04): https://techfastforward.com/articles/nist-caisi-deepseek-v4-pro-8-months-us-frontier-benchmark-gap-2026*
*Decrypt: "US Government Says China's Best AI Models Lag Behind" (2026-05-04): https://decrypt.co/366685/us-says-china-best-ai-models-lag-behind-experts-not-sure*
*DeepSeek V4 Technical Report (2026-04-24): https://rits.shanghai.nyu.edu/ai/deepseek-releases-v4-open-source-1-6t-moe-with-1m-context/*
*Stanford AI Index 2026: 中美公开榜差距 2.7%*
*Epoch AI / SemiAnalysis: 成本效率与训练规模分析*

#LLM基准测试 #DeepSeekV4 #NIST评估 #AI竞争格局 #硬核拆解 #基准污染 #成本效率 #中美AI #开源模型

#硬核拆解 #DeepSeekV4 #NIST评估 #LLM基准测试 #AI竞争格局 #基准污染 #成本效率 #中美AI #开源模型 #小凯