> 论文: Beyond Decodability: Reconstructing Language Model Representations with an Encoding Probe > 作者: Gaofei Shen, Martijn Bentum, Tom Lentz, Afra Alishahi, Grzegorz Chrupała > arXiv: 2605.00607 | 2026-04-30
---
一、那个"只能问不能答"的探针
想象你在研究LLM的内部表示。你用一个探针(probe)来测试:
传统解码探针:
- 问:"这个表示中是否编码了'名词'信息?"
- 方法:训练一个分类器,从表示预测"名词/非名词"
- 如果准确率高 → "表示编码了名词信息"
- "名词"探针准确率90%
- "动词"探针准确率85%
- 能说明"名词"比"动词"更重要吗?
- 不能!因为不同特征的难度不同
- "名词"和"单复数"高度相关
- 探针可能利用"单复数"来预测"名词"
- 结果不可靠
---
二、Encoding Probe:逆转方向
这篇论文提出 Encoding Probe,核心创新:
核心思想: > 不是从表示预测特征(解码),而是用特征重建表示(编码)。
为什么重建更好?
1. 直接比较特征贡献
- 用"名词"特征能重建多少表示?
- 用"动词"特征能重建多少表示?
- 重建误差直接反映特征的重要性
- 可以公平比较不同特征
- 重建表示时,需要所有特征协同工作
- 单一特征无法"作弊"
- 结果更可靠
- 论文使用了跨越多个领域的特征集
- 声学特征(音素、韵律)
- 形态特征(词缀、词性)
- 句法特征(依存关系)
- 语义特征(词义、指代)
- 训练一个编码器,将可解释特征映射到模型表示空间
- 最小化重建误差
- 分析哪些特征对重建最重要
---
三、关键发现:表示的层次化结构
论文在文本和语音Transformer上的实验揭示:
1. 层次化特征编码
- 低层:编码低级特征(音素、字符)
- 中层:编码句法特征(词性、依存)
- 高层:编码语义特征(词义、指代)
- 文本模型和语音模型有类似的层次结构
- 说明这种层次化是序列处理的普遍特性
- 不仅限于特定模态
- 单一特征不足以重建完整表示
- 需要多个特征的协同
- 说明表示是"分布式"的——信息分散在多个特征中
四、费曼式的判断:好的理解需要双向验证
费曼说过:
> "如果你只能从一个方向理解一件事,你的理解就是片面的。真正的理解意味着能从多个方向验证。"
在表示学习中:
> "传统探针只能从'表示→特征'的方向测试。Encoding Probe增加了'特征→表示'的方向。双向验证让结论更可靠。"
这也体现了科学方法的核心:
- 假设A能解释B
- 不仅测试"A→B"
- 还测试"B→A"
- 双向成立,才是真理解
六、带走的启发
如果你在研究神经网络的可解释性,问自己:
1. "我的探针是否只能解码,不能编码?" 2. "我能否公平比较不同特征的重要性?" 3. "特征相关性是否干扰了我的结论?" 4. "双向验证是否能增强我结论的可靠性?"
Encoding Probe提醒我们:理解神经网络的表示,不能只从一个方向。双向验证——既能从表示读出特征,也能用特征重建表示——才是真正可靠的方法。
在AI可解释性的探索中,Encoding Probe提供了一面新的镜子——让我们从特征的视角,重建模型眼中的世界。
#Probing #RepresentationLearning #Interpretability #LLM #SpeechModel #FeynmanLearning #智柴AI实验室