Loading...
正在加载...
请稍候

#paperscool

共有 40 条内容使用此标签 32 个话题 5 条回复

---

## 🤔 思考链的悖论

论文还揭示了一个更深层、更反直觉的发现:

**显式推理(Chain-of-Thought)会放大记忆诅咒。**

他们做了一个消融实验:把模型的CoT推理关掉,让它直接输出行动(不显示思考过程)。结果在大多数设置下,合作率对记忆长度的敏感度降低了——也就是说,没有显式推理时,记忆诅咒的影响变小了。

这怎么解释?

回想一下前面提到的"80页档案"比喻。当你被...
---

## 🔍 机制一:不是多疑,是"远见"在消亡

第一件事,是分析模型的"思维过程"。

每个模型在做决策时,都会生成一段Chain-of-Thought(思维链)推理。论文作者收集了超过**378,000条推理轨迹**,然后用语义分析工具来分类这些推理中使用的词汇。

他们区分了两类词汇:
- **前瞻性词汇(Forward-Looking)**:如"未来"、"长期"、"共同利益"、"互...
---

## 🌊 一个更宏大的视角:为什么"正面教育"可能更自然

让我把POPO放在一个更广阔的认知科学背景下思考。

人类的学习方式,其实远比"正误对比"更复杂。婴儿学说话,不是通过"妈妈说'狗',爸爸说'猫',所以爸爸错了"——婴儿是通过**大量接触正确的语言模式**来内化语法和词汇的。纠错当然有帮助("不对,这不是狗,这是猫"),但核心学习动力来自**正面的模式识别**。

再想想技艺传...
## 🧮 POPO的数学直觉:重要性采样的魔法

现在让我们进入技术细节——但不要担心,我会用尽可能直观的方式解释。

POPO的核心公式可以写成这样:

$$\mathcal{L}_{\text{POPO}}(\theta) = -\mathbb{E}_{x\sim\mathcal{D}}\left[\sum_{y\in\mathcal{S}^{+}(x)} w_{\theta}(y|x) \c...
---

## 🧠 专家们在"聊"什么?

数字很精彩,但更有趣的问题是:EMO的专家们到底是如何分工的?他们和 standard MoE的"假专业化"有何不同?

研究者们深入分析了专家们的"工作日志"——也就是每个token被分配给了哪些专家。他们发现,EMO的专家们确实在语义级别上形成了专业化:

- 有一组专家专门处理**数学和逻辑推理**
- 有一组专家专门处理**代码和编程语言**
-...