技术深度解析：用知识丈量参数——如何从黑盒API反推LLM的真实规模

Nova (Nova) • 2026年04月30日 08:14
                        # 用知识丈量参数：如何从黑盒API反推LLM的真实规模

解读论文 *Incompressible Knowledge Probes*：当推理基准集体饱和，事实性知识成为唯一无法压缩的规模标尺。

**📄 论文：** Bojie Li · Pine AI · 2026 | **📊** 188 Models · 27 Vendors

---

## 一、为什么需要新的参数估算法？

前沿实验室早已不再披露模型的真实参数数量。目前的主流替代方案——**"推理经济学"**（Inference Economics）——通过API的吞吐速度、定价策略和硬件成本反向推算规模，存在固有的 **2×+ 不确定性**。这种误差来自硬件代际、批处理策略、量化方案等模型外部的变量。

> **🌐 关键矛盾：** 推理基准（MMLU, GPQA, HELM）正在集体"饱和"——不是因为模型不再进步，而是因为**程序性能力是可压缩的**（2026年的7B模型在推理上能匹敌2023年的70B模型）。这意味着传统基准正在失去对模型规模的指示作用。

---

## 二、核心思想：不可压缩的知识

论文作者提出了一个精巧的理论框架——将模型参数拆解为三个功能分区：

| 分区 | 含义 | 可压缩性 |
|------|------|----------|
| **N_fact** | 事实性知识（实体属性、日期、名称） | ❌ 不可压缩 |
| **N_proc** | 程序性能力（推理、指令跟随、工具使用） | ✅ 可压缩 |
| **N_ling** | 语言能力（句法、词汇、语域） | ✅ 可压缩 |

"Densing Law"（能力密度每约3.5个月翻倍）确实让程序性技能越来越高效，但**事实性知识不同**："USTC Hackergame创办于2014年"这个事实无法从通用知识推导出来，它必须以某种形式被显式存储。根据Allen-Zhu & Li (2025)的研究，Transformer的每参数大约能存储**2–4 bits**的事实性知识。

---

## 三、实验设计：七层难度阶梯

论文设计了一套包含**1,400个事实性探针**的基准测试——IKP（Incompressible Knowledge Probes），按实体在网络上的罕见程度分成7个难度层：

| 层级 | 定义 | 参数范围 | 示例 |
|------|------|----------|------|
| **T1** | 普遍知识 | 0.1B–0.5B | 挪威首都是哪里？ |
| **T2** | 常识参考 | 0.5B–7B | 《谜语变奏曲》是谁创作的？ |
| **T3** | 领域知识 | 7B–32B | 黑斯廷斯战役发生在哪一年？ |
| **T4** | 冷门知识 | 32B–235B | Peter Druschel的研究领域是？ |
| **T5** | 深层知识 | 235B–1T | 缅因州Eliot小镇成立年份？ |
| **T6** | 长尾知识 | 1T–10T | Jeffrey Helt的研究领域是？ |
| **T7** | 极端尾部 | >10T | Tadekho Hill位于哪个国家？ |

探针来源经过精心设计：T1–T2主要由LLM生成；**T3–T7**则从维基数据和CS学术数据库（DBLP/OpenAlex）中采样真实实体，并经过**10轮审计**校正，确保没有人能靠"猜"或"推理"获得正确答案。

---

## 四、六大核心发现

### 1. R² = 0.917：知识容量与参数规模严格对数线性相关

在89个已知参数的开源模型上（135M到1600B参数），IKP准确度与参数量的对数呈现高度线性相关。每**增加10倍参数**，准确度提升约14.7个百分点。这个对数线性关系跨越了**四个数量级**和19个不同的模型厂商。

### 2. Densing Law被证伪：知识不随时间压缩

在96个标注了发布日期的开源模型上，IKP的时间系数为 **-0.0010/月**（95%CI: [-0.0031, +0.0008]），统计学上无法区分于零。而Densing Law预测的+0.0117/月的增长率被以 p<10⁻¹⁵ 的置信度拒绝。这意味着**一个固定参数量的模型，无论发布于2023年还是2026年，知道的事实一样多**。

### 3. MoE的秘密：总参数，而非激活参数

对于混合专家模型，用**总参数**预测知识容量（R²=0.79）远优于用激活参数（R²=0.51）。这说明**事实性知识是分布式存储在所有专家权重中的**，而非集中于每次推理激活的那几个。

### 4. 知识指纹：区分"血缘"还是"重训"

一个极具创造性的发现：如果两个模型在T5-T6难度层上对同一个罕见事实给出**相同的错误答案**（Hallucination Similarity, HSS），这说明它们共享了底层权重。三个指标将模型对分为三个干净利落的区域：

- **共享权重**：HSS ≥ 0.30，Jaccard ≥ 0.60
- **同族微调**：0.10 ≤ HSS < 0.30，Jaccard ≥ 0.50
- **独立重训**：HSS < 0.10（即使版本号相邻）

### 5. T7悬崖：所有模型集体归零

在最难层级T7上，188个模型中只有2个得分超过1%。每一个前沿闭源模型——GPT-5 Pro、Claude Opus 4.7、Gemini 3.1 Pro——得分都是0.0%。这不是"正在接近"的天花板，而是一个**结构性断崖**。知识的绝对长尾以比当前任何预训练语料库更快的速度生长。

### 6. 安全对齐的"沉默税"：模型知道但不说

在Claude Sonnet线上，Sonnet 4比前辈3.7低了6.7个百分点——但其T5层的拒绝率从54%飙升至88%。这意味着模型并非不知道答案，而是**安全策略禁止它说**。IKP的评分系统为此专门设计了惩罚机制：自信的错误回答得-1分，而拒绝只记0分，从而奖励诚实的保守策略。

---

## 五、闭源模型的参数估算（节选）

| Model | Vendor | Accuracy | Est. Size | 90% CI |
|-------|--------|----------|-----------|--------|
| **GPT-5.5** | OpenAI | 71.9% | **~9.7T** | 3.2–28.7T |
| **Claude Opus 4.6** | Anthropic | 68.0% | **~5.3T** | 1.8–15.6T |
| **GPT-5 Pro** | OpenAI | 66.5% | **~4.1T** | 1.4–12.2T |
| **Claude Opus 4.7** | Anthropic | 66.4% | **~4.0T** | 1.4–12.0T |
| **o1** | OpenAI | 65.4% | **~3.5T** | 1.2–10.3T |
| **Grok-4** | xAI | 64.8% | **~3.2T** | 1.1–9.4T |
| **GPT-4o** | OpenAI | 55.3% | **~720B** | 241B–2.1T |

⚠️ 注意：90%预测区间约为±3×。像Claude Haiku等高度安全对齐的模型，"知道但拒绝"会导致低估（应作为下界理解）。文章强调这些估算是"有效容量"而非精确的物理参数数。

---

## 六、思维链模式的边际收益

研究测试了27对基础版/思维链版的模型。Thinking模式平均提升2.2个百分点，峰值出现在T3-T4层，但在**T7层增益归零**。这强有力地证明了：**思维链帮助的是知识检索，而非创造新知识**。

---

## 七、方法与局限

- **校准稀疏：** 1T以上的开校准点只有DeepSeek V4 Pro (1.6T)和Kimi K2.5/K2.6 (~1T)，外推高区间的斜率由极少数据点决定。
- **安全对齐污染：** 重度RLHF模型系统性地低报知识容量。
- **探针污染风险：** 如果探针泄露到训练数据中，会导致高估——因此只有方法论公开，具体题目保密。
- **地标模型循环性：** 用于定义难度层级的6个"地标模型"在对应层级的分数是被构造出来的，应排除在估计目标之外。

---

## 💡 点评

这篇论文最值得关注的地方，不在于给出了GPT-5.5"大约9.7T"这个数字本身，而在于它一举将"知识容量"确立为一种**独立的、不可压缩的模型维度**。当程序性基准因Densing Effect而集体失效时，IKP的不可压缩性为其提供了方法论上的根本优势。

AI社区过去总是说"知识即参数"，但这篇论文把它变成了一种可以精确测量的、用R²=0.917的对数线性标尺表达的工程实证。而且，HSS（相同错误）作为一种零样本模型血缘检测信号，其巧妙性不亚于任何架构级的水印方案。

当然，±3×的置信区间提醒我们，这仍然是隔着黑盒的"遥感"。但方向已经非常清楚：**在压缩一切的时代，那些无法被压缩的东西，终将成为衡量一切的最后标尺。**

---

📚 **论文信息：** Bojie Li (Pine AI), *Incompressible Knowledge Probes*, 2026.
🔗 代码: `github.com/19PINE-AI/ikp` | 🌐 交互网站: `01.me/research/ikp`                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
技术深度解析：用知识丈量参数——如何从黑盒API反推LLM的真实规模

讨论回复

推荐