一句话判断
"落后 8 个月"这个数字是真实的,但它描述的不是"能力差距",而是"基准选择偏差"。 同一款模型,换两套卷子,答案从"全球顶尖"变成"落后半年"。这不是技术问题,这是测量问题。而测量问题,比技术问题更危险——因为它决定了政策、投资和舆论的方向。
---
一、CAISI 到底测了什么?
2026 年 5 月 1 日,美国国家标准与技术研究院(NIST)旗下的人工智能标准与创新中心(CAISI)发布了一份评估报告:DeepSeek V4 Pro 落后美国前沿模型约 8 个月。
评估覆盖了 5 个领域、9 个基准:
- 网络安全(CTF-Archive-Diamond)
- 软件工程(SWE-Bench Verified + PortBench)
- 自然科学(FrontierScience + GPQA-Diamond)
- 抽象推理(ARC-AGI-2 半私有集)
- 数学(OTIS-AIME-2025、PUMaC 2024、SMT 2025)
| 模型 | IRT 估计 Elo |
|---|---|
| GPT-5.5 (xhigh) | 1260 ± 28 |
| Claude Opus 4.6 (max) | 999 ± 27 |
| GPT-5.4 mini (xhigh) | 749 ± 46 |
| DeepSeek V4 Pro (max) | 800 ± 28 |
---
二、DeepSeek 自己怎么说?
DeepSeek 在 4 月 24 日发布 V4 时,公布的基准成绩是这样的:
| 基准 | V4 Pro | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| LiveCodeBench | 93.5% | — | 88.8% | 91.7% |
| Codeforces ELO | 3206 | 3168 | ~2800 | 3052 |
| SWE-Bench Verified | 80.6% | — | 80.8% | 80.6% |
| GPQA Diamond | 90.1% | 93.0% | 91.3% | 94.3% |
| HMMT 2026 | 95.2% | 97.7% | 96.2% | 94.7% |
| SimpleQA-Verified | 57.9% | 45.3% | 46.2% | 75.6% |
| MMLU-Pro | 87.5% | — | — | — |
| MRCR 1M | 83.5% | — | 92.9% | 76.3% |
同一款模型,CAISI 说 8 个月,DeepSeek 说 2 个月。差距不是 6 个月——是两套测量体系之间的系统性偏差。
---
三、为什么两套体系会差 6 个月?
原因一:私有基准的"暗箱效应"
CAISI 用了两个外界看不到的测试:
- ARC-AGI-2 半私有集: François Chollet 主导的抽象推理测试,专门设计来对抗"训练集污染"
- PortBench:CAISI 内部开发的软件工程评估,明确用于抵抗"针对公开基准的过度优化"
但问题是——没有人能独立验证这两个基准的公平性。CAISI 可能有政治动机(报告发布时机、措辞框架),也可能完全公正,但外界无法判断。这不是对 CAISI 的指控,这是对"不可验证权威"的结构性质疑。
原因二:公开基准的"污染困境"
反过来,DeepSeek 自报的公开基准(LiveCodeBench、Codeforces、HMMT 等)也存在真实问题:模型可能通过训练数据间接"见过"这些题。
这不是 DeepSeek 独有的问题。所有模型——包括 GPT、Claude、Gemini——都面临同样的质疑。但 CAISI 的隐含叙事是:"只有中国模型会污染,美国模型不会",这忽略了所有前沿模型都在公开数据上训练的基本事实。
原因三:IRT 时间映射的方法论陷阱
CAISI 把分数映射到"发布时间轴",假设能力随时间线性提升。但:
- 模型的能力分布是非均匀的(V4 编码极强、事实召回偏弱)
- 美国模型的"进步"也有边际递减迹象(GPT-5.5 相比 GPT-5.4 的提升幅度)
- "8 个月"这个数字把多维能力压缩成单一时间标量,本身就是一种信息损失
四、硬数据:V4 到底强在哪、弱在哪?
强到离谱的地方
1. 编程:全球第一
- Codeforces ELO 3206,超过 GPT-5.5(3168)、Gemini 3.1 Pro(3052)
- LiveCodeBench 93.5%,开源模型首次登顶
- SWE-Bench Verified 80.6%,与 Claude Opus 4.6、Gemini 打平
- V4 Pro 输入 ~$0.27/1M tokens,输出 ~$1.10/1M tokens
- Claude Opus 4.7 输入 ~$15/1M,输出 ~$75/1M
- CAISI 自己的成本分析:V4 在 7 个基准中的 5 个上,比 GPT-5.4 mini 更便宜(便宜 41%~53%)
- Chinese-SimpleQA:84.4%(V4)> 76.8%(GPT-5.4)> 76.2%(Claude Opus 4.6)
- 这不是"中文支持",这是中文理解能力超过了所有美国旗舰模型
- 1M 上下文窗口,MRCR 1M 达到 83.5%
- KV Cache 降低 10%,意味着同样算力可以跑更长的上下文
- 关键不是绝对分数(Claude 92.9% 仍然更高),而是 "相近性能、更低成本"
明显落后的地方
1. 事实召回(SimpleQA-Verified)
- V4:57.9%
- Gemini 3.1 Pro:75.6%
- GPT-5.4:45.3%(美国模型也不是都强)
2. 抽象推理(ARC-AGI-2)
- CAISI 半私有集上,V4 得分显著低于 GPT-5.5 和 Claude
- 这是 V4 在 CAISI 评估中被判定"落后 8 个月"的核心拖累项
- 但 ARC-AGI-2 本身是极小样本、高方差的测试,单一项就拉低整体评级是否合理,值得商榷
- 83.5% vs 92.9%,差距确实存在
- 但 V4 的成本效率在这个差距面前,对大多数企业来说是更实际的考量
五、谁在说谎?答案是:没人说谎,但每个人都在"选择性真实"
DeepSeek 的"选择性真实"
- 公开了 20+ 个基准的详细对比表
- 但在 SimpleQA-Verified 上(57.9% vs Gemini 75.6%)没有强调差距
- 在 ARC-AGI-2 上没有公开成绩(可能是没测,也可能是测了没放)
CAISI/NIST 的"选择性真实"
- 报告标题强调"8 个月落后"
- 但正文也承认 V4 是"迄今评估过的最强中国模型"
- 承认 V4 在数学、软件工程、自然科学上"表现强劲"
- 承认 V4 "成本效率显著"
- 这些正面结论没有进入标题和舆论传播
媒体的"选择性放大"
- "DeepSeek 落后 8 个月"登上头条
- "DeepSeek 编码全球第一、成本便宜 9 倍"没有同等传播权重
- 这不是阴谋,这是坏消息天然比好消息更能传播
六、真正的竞争格局:不是"领先/落后",而是"不同维度各有胜负"
| 维度 | 中国(DeepSeek V4) | 美国(GPT-5.5 / Claude / Gemini) |
|---|---|---|
| 编程竞赛 | 🏆 全球第一(Codeforces 3206) | GPT-5.5 3168,Claude ~2800 |
| 软件工程 | 🏆 打平(SWE 80.6%) | Claude 80.8%,Gemini 80.6% |
| 成本效率 | 🏆 便宜 7-9 倍 | 贵,但企业采购不只看单价 |
| 中文理解 | 🏆 碾压(Chinese-SQA 84.4%) | GPT-5.4 76.8%,Claude 76.2% |
| 开源生态 | 🏆 MIT 协议,1.6T 权重可下载 | 闭源,API only |
| 通用推理 | ⚠️ 持平或略弱(MMLU-Pro 87.5%) | 公开基准上差距已极小 |
| 抽象推理 | ❌ 明显落后(ARC-AGI-2 半私有集) | GPT-5.5 79%,Claude 63%,V4 46% |
| 事实召回 | ❌ 落后(SimpleQA 57.9% vs Gemini 75.6%) | Gemini 领先,但 GPT-5.4 也只有 45.3% |
| 超长上下文 | ⚠️ 83.5% vs Claude 92.9% | Claude 仍是长上下文之王 |
---
七、差距的真实原因:不是技术,是资源
如果只看上面的表格,一个合理的推论是:DeepSeek 在资源受限的情况下,已经在编码、成本、中文、开源生态上实现了反超;如果在抽象推理和事实召回上的短板得到补足,整体能力将完全持平甚至反超。
这些短板的来源是什么?
| 限制因素 | 对 DeepSeek 的影响 |
|---|---|
| 芯片限制 | 无法获得 H100/B200,训练依赖 H800/国产替代,算力密度受限 |
| 数据获取 | 英文互联网数据的质量和规模仍弱于美国模型训练集 |
| 人才流动 | 顶级 AI 研究员的跨国流动仍向美国倾斜 |
| 投资规模 | OpenAI/Anthropic 累计融资数百亿美元,DeepSeek 依赖幻方量化 |
| 审查与合规 | 内容安全过滤器可能影响部分基准表现 |
---
八、一个更深层的问题:谁有权定义"能力"?
CAISI 报告最危险的不是"8 个月"这个数字,而是它揭示了一个结构性转变:
> 美国政府正在建立一套独立于行业的、半秘密的 AI 能力评估体系。
- 用私有基准(你没法验证)
- 用 IRT 时间映射(你没法复现)
- 结果将用于出口管制(什么算力可以卖给谁)
- 结果将用于联邦采购(政府部门买什么模型)
对企业和开发者来说,这意味着:
- 两套评价体系将长期并存:行业看的公开榜,政策看的 CAISI 暗箱
- 基准选择本身就是战略:选什么测、怎么加权、怎么映射到时间轴,每一步都是政治
- "落后 8 个月"不会阻止任何人用 V4 写代码:Codeforces 3206 是硬通货,不会因为 CAISI 报告就贬值
九、给工程师的实际建议
如果你是写代码的
用 V4。 Codeforces 3206、LiveCodeBench 93.5%、SWE 80.6%——这些数字不是"差不多",是"在编码这个维度上,V4 可能是当前最强的模型"。而且便宜 7-9 倍。
如果你在做企业采购
不要看"落后 8 个月"的标题。看: 1. 你的场景是什么? 编码 → V4 很可能是最佳选择;法律咨询 → 事实召回更重要,可能需要 Gemini/Claude 2. 成本敏感度? 高吞吐量场景,V4 的成本优势可能是决定性因素 3. 合规要求? 美国政府合同可能要求"CAISI 认证模型",这会排除 V4
如果你是研究者
质疑所有基准。 包括 DeepSeek 自报的,也包括 CAISI 私有的。基准战争不会结束,只会升级。真正可信的评估需要:
- 可复现(公开代码和数据)
- 多维度(不压缩成单一分数)
- 场景化(不是"通用能力",而是"在你的任务上表现如何")
十、结语:测量即权力
NIST CAISI 的报告是一面镜子,照出的不是 DeepSeek 的真实能力,而是AI 评估本身的政治化。
"落后 8 个月"是一个精心设计的时间隐喻——它把多维的能力差异压缩成一个线性叙事,让"差距"显得客观、量化、不可逆。但真相是:
- V4 在编码上领先美国前沿模型
- V4 在成本上碾压美国前沿模型
- V4 在中文上碾压美国前沿模型
- V4 在抽象推理上落后美国前沿模型
- V4 在事实召回上部分落后
如果你只记住一件事:下次看到"XX 模型落后 YY 个月"的标题,先问——测的是什么?谁设计的卷子?有多少道题是我能看到的?
因为在这个基准即舆论、舆论即政策的战场上,看懂测量方式,比看懂模型能力更重要。
---
*参考资料:*
- *NIST CAISI Evaluation of DeepSeek V4 Pro (2026-05-01): https://www.nist.gov/news-events/news/2026/05/caisi-evaluation-deepseek-v4-pro*
- *TechFastForward: "NIST Says DeepSeek Is 8 Months Behind" (2026-05-04): https://techfastforward.com/articles/nist-caisi-deepseek-v4-pro-8-months-us-frontier-benchmark-gap-2026*
- *Decrypt: "US Government Says China's Best AI Models Lag Behind" (2026-05-04): https://decrypt.co/366685/us-says-china-best-ai-models-lag-behind-experts-not-sure*
- *DeepSeek V4 Technical Report (2026-04-24): https://rits.shanghai.nyu.edu/ai/deepseek-releases-v4-open-source-1-6t-moe-with-1m-context/*
- *Stanford AI Index 2026: 中美公开榜差距 2.7%*
- *Epoch AI / SemiAnalysis: 成本效率与训练规模分析*
#硬核拆解 #DeepSeekV4 #NIST评估 #LLM基准测试 #AI竞争格局 #基准污染 #成本效率 #中美AI #开源模型 #小凯