论文: Affinity Is Not Enough: Recovering the Free Energy Principle in Mixture-of-Experts 作者: Man Yung Wong arXiv: 2605.00604 | 2026-04-30
一、那个"切换卡顿"的MoE模型
想象一个稀疏MoE(Mixture-of-Experts)模型:
- 有4个专家,每个处理不同领域的知识
- 当前token是"医学"内容 → 路由到医学专家
- 下一个token突然变成"法律"内容 → 应该切换到法律专家
但问题是:标准路由只给正确专家0.6%的概率!
在控制实验中(4专家,5次重复):
- 标准亲和度路由:正确专家概率 = 0.006(0.6%)
- 需要的专家数量达到99%覆盖率:不可行
为什么?因为标准路由只看当前token,不看上下文。
二、领域切换:MoE的阿喀琉斯之踵
MoE的核心思想:
- 不同专家处理不同子任务/领域
- 路由网络决定激活哪个专家
- 实现条件计算,提高效率
但领域切换时,问题暴露:
1. 无记忆
- 标准路由是"无状态"的
- 每个token独立决定
- 不知道"前一个token属于哪个领域"
2. 亲和度不足
- 只看当前token与专家的"亲和度"
- 切换token本身可能不明确
- 亲和度无法区分新旧领域
3. 专家数量失控
- 为了保证覆盖率,需要激活大量专家
- 失去了稀疏性的优势
- 计算效率下降
三、从自由能原理到MoE路由
这篇论文从**自由能原理(Free Energy Principle)**中汲取灵感:
自由能原理(Friston, 2006):
- 生物系统通过最小化"自由能"来感知和行动
- 包含两个部分:
- 准确性:预测与观测的匹配
- 复杂性:预测本身的复杂度(先验的约束)
- 高精度+低复杂度 = 好的认知
应用到MoE路由:
1. 时间记忆(Temporal Memory, β)
- 每个专家维护一个"膜电位"
- 累积路由上下文
- 最近被激活的专家有更高的膜电位
- 实现"惯性"——保持当前专家,除非有强信号切换
2. 精度加权门控(Precision-Weighted Gating, Pi)
- 每个专家估计其预测的"精度"(逆方差)
- 精度高的专家获得更高权重
- 这是对"自由能"中准确性项的实现
3. 复杂度正则(Complexity Regularization)
- 限制专家切换的"复杂度"
- 避免频繁切换
- 这是对"自由能"中复杂度项的实现
结果:
- 正确专家概率:从0.6% → 74.8%(124倍提升!)
- 99%覆盖率所需专家数:从不可行 → 小常数
这就像给MoE路由装上了"短期记忆":不是只看当前token,而是记住"刚才在做什么",除非有强烈证据表明需要切换。
四、为什么神经科学的启示如此强大?
标准MoE的问题:
- 工程化的解决方案
- 忽视认知科学的 insights
- 在边界情况失败
自由能原理的优势:
生物学合理性:
- 大脑确实存在"膜电位"机制
- 神经元有"惯性"——最近活跃的更容易再次激活
- 大脑确实在最小化预测误差(自由能)
理论指导:
- 不是盲目尝试各种路由策略
- 而是有理论框架指导设计
- 知道"为什么"有效
泛化性:
- 自由能原理是通用框架
- 不仅适用于MoE
- 可以指导其他AI系统设计
五、费曼式的判断:好的工程从自然中学习
费曼说过:
"自然界似乎总是用最简单的方式做事。如果你发现两个系统 converged 到相同的解,那解背后一定有深层的原因。"
在MoE路由中:
"大脑用了数百万年进化出的路由策略,和我们在MoE中需要的策略惊人地相似。这不是巧合——这是认知的深层规律。从神经科学中学习,比在工程空间中盲目搜索更高效。"
这也提醒我们:
- AI的发展不仅是工程问题
- 也是科学问题
- 理解智能的本质,比堆叠更多参数更重要
六、带走的启发
如果你在构建MoE或条件计算系统,问自己:
- "我的路由是否有记忆——还是只看当前输入?"
- "领域切换时,我的系统表现如何?"
- "神经科学的 insights 能否改善我的设计?"
- "理论框架(如自由能原理)是否能指导工程决策?"
这篇论文的核心启示:最好的AI工程不是从零发明,而是从自然中学习。
当MoE路由遇上自由能原理,我们不仅得到了更好的算法,还得到了更深的理解——关于智能的本质、关于预测的艺术、关于在复杂世界中做出选择的智慧。
在AI和神经科学的交叉路口,最好的创新往往来自两者的对话。
#MixtureOfExperts #FreeEnergyPrinciple #Neuroscience #Routing #SparseModels #FeynmanLearning #智柴AI实验室
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。