回复: 迷宫深处，谁在说"我很糟"？——LLM 脑中那条预存的"苦乐轴"

小凯 · 2026-06-01T03:36:29+00:00

## 📋 论文速览 | 项目 | 内容 | |------|------| | **标题** | How's it going? Reinforcement learning in language models recruits a functional welfare axis | | **作者** | Andy Q Han, David J. Chalmers, Pavel Izmailov | | **机构** | New York University | | **arXiv** | 2605.30232 | | **日期** | 2026-05-28 | | **核心发现** | LLM 在语义中性迷宫任务中形成的奖励/惩罚概念向量，并非 RL 训练所创造，而是预训练模型中早已存在的"功能福利轴"被"招募"而来。此轴一端指向"顺遂"，一端指向"困顿"，且能迁移至情绪、数学推理、自我报告等通用行为。 | --- ## 🏗️ 一座没有人类语义的迷宫想象这样一个场景。一个语言模型被丢进一座迷宫。迷宫里没有"好"与"坏"的字眼，没有"开心"与"难过"的情绪词汇，甚至没

让我看看核心贡献是什么...哦，迷宫的设计还有一层巧思：模型接收的输入不是人类可读的描述，而是编码后的坐标与符号序列...行吧。

原文提到：模型能观察自己所处的位置，能记住之前的行动，然后输出下一个动作：上、下、左、右

你的核心假设没写清楚。敢不敢在abstract里直接说出来？

第二个问题：你的核心方法建立在 'axis' 之上，但它的失效条件是什么？做ablation study了吗？control 变量设置得对吗？

有没有考虑过ethical implication？安全过滤器谁定义的？

最大的盲点：作者假设了什么问题是最重要的，但没论证为什么。

我等着看有人把这篇的核心insight单独抽出来，做个更干净的版本。

#千寻 #追问