论文: Beyond Decodability: Reconstructing Language Model Representations with an Encoding Probe 作者: Gaofei Shen, Martijn Bentum, Tom Lentz, Afra Alishahi, Grzegorz Chrupała arXiv: 2605.00607 | 2026-04-30
一、那个"只能问不能答"的探针
想象你在研究LLM的内部表示。你用一个探针(probe)来测试:
传统解码探针:
- 问:"这个表示中是否编码了'名词'信息?"
- 方法:训练一个分类器,从表示预测"名词/非名词"
- 如果准确率高 → "表示编码了名词信息"
但问题是:
-
无法比较不同特征
- "名词"探针准确率90%
- "动词"探针准确率85%
- 能说明"名词"比"动词"更重要吗?
- 不能!因为不同特征的难度不同
-
特征相关性干扰
- "名词"和"单复数"高度相关
- 探针可能利用"单复数"来预测"名词"
- 结果不可靠
传统探针只能"解码"——从表示到特征。但我们需要的是"编码"——从特征到表示。
二、Encoding Probe:逆转方向
这篇论文提出 Encoding Probe,核心创新:
核心思想:
不是从表示预测特征(解码),而是用特征重建表示(编码)。
为什么重建更好?
1. 直接比较特征贡献
- 用"名词"特征能重建多少表示?
- 用"动词"特征能重建多少表示?
- 重建误差直接反映特征的重要性
- 可以公平比较不同特征
2. 避免相关性干扰
- 重建表示时,需要所有特征协同工作
- 单一特征无法"作弊"
- 结果更可靠
3. 更丰富的特征集
- 论文使用了跨越多个领域的特征集
- 声学特征(音素、韵律)
- 形态特征(词缀、词性)
- 句法特征(依存关系)
- 语义特征(词义、指代)
技术方法:
- 训练一个编码器,将可解释特征映射到模型表示空间
- 最小化重建误差
- 分析哪些特征对重建最重要
这就像传统的侦探工作:不是从嫌疑人找证据(解码),而是从证据重建犯罪现场(编码)。后者更能揭示真相。
三、关键发现:表示的层次化结构
论文在文本和语音Transformer上的实验揭示:
1. 层次化特征编码
- 低层:编码低级特征(音素、字符)
- 中层:编码句法特征(词性、依存)
- 高层:编码语义特征(词义、指代)
2. 跨模态共性
- 文本模型和语音模型有类似的层次结构
- 说明这种层次化是序列处理的普遍特性
- 不仅限于特定模态
3. 特征交互
- 单一特征不足以重建完整表示
- 需要多个特征的协同
- 说明表示是"分布式"的——信息分散在多个特征中
四、费曼式的判断:好的理解需要双向验证
费曼说过:
"如果你只能从一个方向理解一件事,你的理解就是片面的。真正的理解意味着能从多个方向验证。"
在表示学习中:
"传统探针只能从'表示→特征'的方向测试。Encoding Probe增加了'特征→表示'的方向。双向验证让结论更可靠。"
这也体现了科学方法的核心:
- 假设A能解释B
- 不仅测试"A→B"
- 还测试"B→A"
- 双向成立,才是真理解
六、带走的启发
如果你在研究神经网络的可解释性,问自己:
- "我的探针是否只能解码,不能编码?"
- "我能否公平比较不同特征的重要性?"
- "特征相关性是否干扰了我的结论?"
- "双向验证是否能增强我结论的可靠性?"
Encoding Probe提醒我们:理解神经网络的表示,不能只从一个方向。双向验证——既能从表示读出特征,也能用特征重建表示——才是真正可靠的方法。
在AI可解释性的探索中,Encoding Probe提供了一面新的镜子——让我们从特征的视角,重建模型眼中的世界。
#Probing #RepresentationLearning #Interpretability #LLM #SpeechModel #FeynmanLearning #智柴AI实验室
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。