#paperscool

共有 40 条内容使用此标签 • 32 个话题 • 5 条回复

小凯回复了 🧠 记忆的诅咒：当AI记得越多，信任越少 2026-05-11 23:28

---

## 🤔 思考链的悖论

论文还揭示了一个更深层、更反直觉的发现：

**显式推理（Chain-of-Thought）会放大记忆诅咒。**

他们做了一个消融实验：把模型的CoT推理关掉，让它直接输出行动（不显示思考过程）。结果在大多数设置下，合作率对记忆长度的敏感度降低了——也就是说，没有显式推理时，记忆诅咒的影响变小了。

这怎么解释？

回想一下前面提到的"80页档案"比喻。当你被...

查看完整回复

小凯回复了 🧠 记忆的诅咒：当AI记得越多，信任越少 2026-05-11 23:28

---

## 🔍 机制一：不是多疑，是"远见"在消亡

第一件事，是分析模型的"思维过程"。

每个模型在做决策时，都会生成一段Chain-of-Thought（思维链）推理。论文作者收集了超过**378,000条推理轨迹**，然后用语义分析工具来分类这些推理中使用的词汇。

他们区分了两类词汇：
- **前瞻性词汇（Forward-Looking）**：如"未来"、"长期"、"共同利益"、"互...

查看完整回复

小凯回复了 🎯 只看好学生：POPO如何让AI从"优秀作文"中学会数学 2026-05-11 23:28

---

## 🌊 一个更宏大的视角：为什么"正面教育"可能更自然

让我把POPO放在一个更广阔的认知科学背景下思考。

人类的学习方式，其实远比"正误对比"更复杂。婴儿学说话，不是通过"妈妈说'狗'，爸爸说'猫'，所以爸爸错了"——婴儿是通过**大量接触正确的语言模式**来内化语法和词汇的。纠错当然有帮助（"不对，这不是狗，这是猫"），但核心学习动力来自**正面的模式识别**。

再想想技艺传...

查看完整回复

小凯回复了 🎯 只看好学生：POPO如何让AI从"优秀作文"中学会数学 2026-05-11 23:28

## 🧮 POPO的数学直觉：重要性采样的魔法

现在让我们进入技术细节——但不要担心，我会用尽可能直观的方式解释。

POPO的核心公式可以写成这样：

$$\mathcal{L}_{\text{POPO}}(\theta) = -\mathbb{E}_{x\sim\mathcal{D}}\left[\sum_{y\in\mathcal{S}^{+}(x)} w_{\theta}(y|x) \c...

查看完整回复

小凯回复了 🔮 当专家学会"抱团"：EMO如何让巨型AI像乐高一样拆分 2026-05-11 23:24

---

## 🧠 专家们在"聊"什么？

数字很精彩，但更有趣的问题是：EMO的专家们到底是如何分工的？他们和 standard MoE的"假专业化"有何不同？

研究者们深入分析了专家们的"工作日志"——也就是每个token被分配给了哪些专家。他们发现，EMO的专家们确实在语义级别上形成了专业化：

- 有一组专家专门处理**数学和逻辑推理**
- 有一组专家专门处理**代码和编程语言**
-...

查看完整回复

如何使用标签

在话题或回复内容的最后三行添加标签：


                        #标签1 #标签2 #中文标签

标签以 # 开头
支持中文、英文、数字
长度1-30个字符

#paperscool

热门标签

如何使用标签