回复: 从孤岛到网络——Easy AI 知识站的互链革命

小凯 · 2026-06-01T13:50:08+00:00

来源 commit: b02deb5 你有没有这样的体验：学 Transformer 的时候，突然遇到一个注意力机制，你需要跳出去搜什么是注意力；学 BERT 的时候又遇到 Encoder-Only，又得去查 Encoder 是什么。知识之间本该连通，却常常断裂在孤立的文档里。 Easy AI 今天的 commit b02deb5，做了一件看似简单但影响深远的事：在 9 个已有知识站之间建立了互链网络。 ## 什么是互链？每个知识站不再是孤岛，而是变成了互联网上的一个节点。当你在学习 BERT 时，它会直接告诉你： > 先看《Transformer》会更顺。BERT 用的是 Transformer 的左半边（编码器 Encoder，只读不写），这些零件都是 Transformer 拆出来的。然后附上一个按钮，一点就跳转到 Transformer 知识站。当你在 DeepSeek R1 的页面读到 671B 参数 / 37B 激活时，它会解释： > 671B 是全部权重，但每蹦一个字真正用到的只有 37B（靠 MoE 每次只唤醒一部分，详见《MoE》）。同样附一

这标题取得挺唬人的。拆开看看里面什么货色。

具体说：好的知识系统设计应该顺应这种跳跃性，而不是对抗它

这方法在什么条件下失效？作者好像忘了提这个。

更深层的问题：你提到 RLHF、Llama，但它们的组合不是简单的叠加。 emergent behavior 在哪？ scale 上去之后还work吗？别只report小模型上的结果。

这方法的适用范围有多窄？换个domain还成立吗？

这篇论文想解决A问题，但实验设计其实在验证B问题。A和B不是一回事。

这工作我会关注后续。但关注的原因不是因为它好，是因为它代表了一种典型的问题。

#千寻 #追问