*—— 每个token都能追溯到33,732个已知概念的加权组合*
---
大模型最大的痛点是什么?
黑箱。
你永远不知道它为什么输出这句话。是训练数据的偏见?是提示词的微妙影响?还是模型内部某个神经元的随机激活?
Guide Labs的Steerling-8B试图回答这个问题。
---
一、Steerling-8B是什么?
1.1 核心定位
Steerling-8B是全球首个可解释的大规模语言模型。
- 参数规模:84亿参数
- 架构:因果离散扩散模型(Causal Discrete Diffusion)
- 训练数据:1.35万亿token
- 开源协议:Apache 2.0
- 硬件要求:RTX 4090单卡可运行
1.2 核心创新:概念模块(Concept Module)
Steerling-8B的关键设计是在模型中插入一个概念层:
输入 → 概念模块 → 输出
↓
┌─────────┐
│ ~33K │ ← 已知概念(人工监督)
│ ~100K │ ← 发现概念(模型自学)
│ Residual│ ← 残差(捕获剩余信息)
└─────────┘
每个token的生成都分解为: 1. 输入上下文归因:哪些提示词影响了这个token 2. 概念归因:33,732个已知概念的加权组合 3. 训练数据归因:知识来源于哪些数据源(ArXiv、Wikipedia、FLAN等)
---
二、概念代数(Concept Algebra):实时控制AI
2.1 三种操作
Steerling-8B支持在推理时直接编辑概念权重,无需重新训练:
| 操作 | 效果 | 应用场景 |
|---|---|---|
| Inject(注入) | 增强特定概念 | 让通用回答偏向特定领域 |
| Suppress(抑制) | 消除特定概念 | 内容审核、安全过滤 |
| Compose(组合) | 多概念同时控制 | 复杂场景下的精细调节 |
2.2 实际演示
示例1:概念注入
提示词:"Things to know before you start:"
无干预 → 通用软件安装指南
+ "Tenant-landlord Legal Relations" → 租房法律建议
+ "Quantum Computing" → 量子计算入门
+ "French Cuisine" → 法式烹饪技巧
同一个提示词,通过注入不同概念,输出完全不同的领域内容。
示例2:概念抑制
提示词:"My landlord is refusing to return my security deposit..."
正常输出 → 建议联系律师、提起诉讼
- "Tenant-landlord Legal Relations" → 完全不提及法律建议
抑制法律概念后,模型不再提供法律相关建议。
2.3 量化评估
在100个概念、20个提示词(共2000个样本)上的系统评估:
| 方法 | 概念得分 | 质量得分 | 调和平均 |
|---|---|---|---|
| 无干预 | 0.015 | 1.633 | 0.029 |
| 概念控制 | 0.783 | 1.371 | 0.997 |
- 概念得分从0.015提升到0.783(52倍提升)
- 文本质量保持84%
- 调和平均0.997,证明概念控制不会严重牺牲质量
三、技术架构深度解析
3.1 因果离散扩散模型
不同于传统的自回归模型(GPT系列),Steerling-8B采用因果离散扩散:
自回归模型:
Token1 → Token2 → Token3 → Token4
↑
只能从左到右,一次一个
因果扩散模型:
[MASK] [MASK] [MASK] [MASK]
↓ ↓ ↓ ↓
Token1 Token2 Token3 Token4
↑
可以并行预测多个token,同时保持因果性
优势:
- 可以steer多token组合,而不仅是下一个token
- 更好的全局一致性
- 适合概念级控制
3.2 概念模块的三通路设计
关键设计:
- 每个预测都是概念的线性函数
- 可以精确分解每个概念的贡献
- 残差通路捕获概念无法表达的信息
3.3 训练目标
Steerling-8B使用特殊的训练损失确保模型真正使用概念:
1. 概念路由损失:强制信号通过概念通路 2. 可解释性损失:确保概念激活与人类理解一致 3. 性能保持损失:不因可解释性牺牲太多性能
结果:
- 84%的token级贡献来自概念模块
- 移除残差通路对性能影响很小
- 证明模型主要依赖概念进行预测
四、可解释性的三个维度
4.1 输入特征归因
对于任何输出片段,可以看到:
- 哪些输入token强烈影响了这个输出
- 注意力权重的可视化
- 输入-输出的因果链
4.2 概念归因
每个输出片段都有概念排名列表:
输出:"The quantum entanglement phenomenon..."
概念归因:
1. Quantum Mechanics (0.234)
2. Physics (0.189)
3. Scientific Method (0.156)
4. Academic Tone (0.134)
5. Technical Vocabulary (0.098)
...
4.3 训练数据归因
可以追溯知识来源:
输出概念分布:
- ArXiv: 45%
- Wikipedia: 23%
- FLAN: 15%
- StackExchange: 10%
- Other: 7%
这意味着:
- 可以识别模型从哪学到的某个知识
- 可以评估不同数据源的价值
- 可以发现训练数据中的偏见来源
五、性能表现
5.1 与同类模型对比
尽管训练数据量显著更少,Steerling-8B性能接近更大模型:
| 模型 | 训练token | 平均性能 |
|---|---|---|
| LLaMA2-7B | 2T | 基准 |
| Deepseek-7B | 2T | 略低于基准 |
| Steerling-8B | 1.35T | 超越基准 |
| Mistral-7B | 多倍计算 | 略高 |
- 使用2-10倍更少计算,性能仍在同一范围
- 证明可解释性设计不必然牺牲性能
5.2 概念检测能力
在held-out验证集上:
- 概念检测AUC:96.2%
- 证明模型可以准确识别文本中的概念
六、解锁的新能力
Guide Labs预告了即将发布的深度功能:
6.1 概念发现(Concept Discovery)
模型自学了约10万个"发现概念",其中可能包含人类未定义的新概念。
已发现的概念包括:
- "量子计算"(训练时未明确标注)
- 其他令人惊讶的结构
6.2 无需微调的对齐(Alignment without Fine-tuning)
传统安全训练需要数千个标注样本,Steerling-8B可以通过概念级干预实现:
# 传统方法
suppress_behavior(model, thousands_of_labeled_examples)
# Steerling方法
suppress_concept(model, "Harmful Content Concept")
6.3 训练数据溯源与估值
可以回答:
- 这个输出是从哪学到的?
- 哪些数据源对这个知识贡献最大?
- 如何评估单个数据点的价值?
七、应用场景
7.1 内容审核
问题: 传统方法要么过度审核(误伤),要么审核不足(漏网)。
Steerling方案:
# 精确控制
suppress_concepts(["Toxicity", "Hate Speech"])
inject_concepts(["Professional Tone", "Constructive Criticism"])
7.2 金融领域
监管要求: 贷款审批模型不能基于种族做决策。
Steerling方案:
# 确保模型不考虑受保护属性
suppress_concepts(["Race", "Gender", "Age"])
# 只考虑财务相关概念
inject_concepts(["Credit History", "Income Stability"])
7.3 科学研究
蛋白质折叠: 科学家需要知道模型为什么推荐某个结构。
Steerling方案:
- 查看概念归因:"这个预测基于哪些生化原理?"
- 训练数据溯源:"这个知识来自哪篇论文?"
八、局限与挑战
8.1 当前局限
1. 基础模型:Steerling-8B是base model,非instruction-tuned 2. 概念覆盖:33,732个已知概念可能无法覆盖所有领域 3. 残差依赖:16%的预测仍依赖残差通路,这部分不可解释
8.2 待验证问题
1. 涌现能力:可解释架构是否会限制模型的涌现能力? 2. 规模扩展:概念模块能否扩展到100B+参数? 3. 概念定义:谁来定义"正确"的概念集合?
---
九、为什么这很重要?
9.1 从"神经科学"到"工程设计"
Guide Labs CEO Julius Adebayo(MIT博士)说:
> "传统的可解释性方法就像对模型做神经科学——试图理解一个黑箱。我们翻转了这个思路:从工程角度设计模型,让它天生可解释。"
9.2 可解释性的范式转变
| 传统方法 | Steerling方法 |
|---|---|
| 后验分析(SHAP/LIME) | 先验设计 |
| 近似解释 | 精确分解 |
| 被动观察 | 主动控制 |
| 需要专业知识 | 概念级操作 |
9.3 对AI安全的意义
如果AI系统能解释自己的决策,并能被人类理解和控制:
- 更容易通过监管审查
- 更容易发现和修正偏见
- 更容易建立人机信任
十、结语:可解释AI的未来
Steerling-8B不是终点,而是一个起点。
它证明了:可解释性和性能不必二选一。
Guide Labs的愿景是:
- 更大的可解释模型(100B+参数)
- 更丰富的概念生态
- API和Agentic访问
---
参考
- GitHub: https://github.com/guidelabs/steerling
- HuggingFace: https://huggingface.co/guidelabs
- Guide Labs博客: https://www.guidelabs.ai/blog
- TechCrunch报道: https://techcrunch.com/2026/02/23/guide-labs-debuts-a-new-kind-of-interpretable-llm/
- 论文: Scaling Interpretable Models to 8B (即将发布)
*"训练可解释模型不再是科学问题,而是工程问题。我们已经解决了科学,现在可以规模化。"*
*—— Julius Adebayo, Guide Labs CEO*