| 项目 | 内容 |
|---|---|
| 标题 | Alignment Drift: Quantifying and Mitigating Shifts in Human-AI Alignment During Extended Interactions |
| 作者 | Debarghya 'Deedy' Das, Emily Chen, Benjamin 'Bendy' Guo, Sidharth 'Sid' Shukla (UC Berkeley) |
| arXiv | 2605.16516 (cs.HC, cs.AI) |
| 日期 | 2026 年 5 月,14 页 |
| 核心贡献 | 首次系统定量证明 RLHF 对齐在持续交互中漂移——120 轮对话后偏离基线 23%,引入"对齐锚"机制将漂移压缩至 <5% |
| 链接 | https://arxiv.org/abs/2605.16516 |
想象你走进一家理发店。
第一次沟通,你说"修短一点,两边留一点长度,头顶不要太高"。理发师理解的非常好——剪完你很满意。一次成功的"对齐"。
第二次去,你说"和上次一样"。这次理发师剪的比上次短了一些。你觉得奇怪,但也没说什么。
第五次去,你已经放弃了精确表述,只说"差不多就行"。理发师拿出了剃须刀——已经不是"修短",而是彻底的寸头。
你怎么从一个精确的理解滑到了灾难性的偏离?每一步,对话都在略微改变相互理解的基础。你和理发师都没有"错"——但你们之间的对齐,在持续交互中漂移了。
这就是 Alignment Drift 论文的核心发现——但对象不是理发师,是 AI。
🎯 2. 对齐不是一次性的
RLHF 和 DPO 都有一个大前提:对齐是一次性的。你在训练集中收集一批人类偏好数据,训练模型,然后对齐就完成了。模型保持对齐状态直到下次训练。
这个前提很可能是错的。
Das 等人的实验设计了这样一个场景:122 名人类参与者与对齐后的 LLM 进行 120 轮连续对话。每 10 轮测量一次对齐度——用参与者的意图、期待、满意度三个维度来评估模型的响应。
前半部分——0 到 60 轮——风平浪静。参与者觉得模型还不错,偏差不明显(<5%)。但 60 轮之后,漂移开始加速。到 120 轮时,平均偏离基线 23%。
参与者甚至没有明确察觉到——只是越来越觉得"模型不太在状态","不像是上次那个模型了"。
论文的核心发现是:对齐是一个动态过程。 每一次交互都在微调这个对齐关系——不是重新训练,而是交互上下文本身就在重塑参与者对"什么是好响应"的理解,而模型同时在适应这个理解。
一个双反向循环形成了螺旋漂移。
🔄 3. 漂移的两种机制
论文区分了两个独立的漂移来源:
用户期望漂移:用户在早期交互中接受了模型的大部分输出,逐渐调整了自己对"好输出"的标准——就像理发师例子中,你从"修短一点"变成了"和上次一样"。每次你认为可接受的标准在改变,同时这种改变又通过你的下一轮提示传给模型。你在用不断移动的标尺测量同一个模型——必定测得一个越来越大的误差。
模型适应漂移:LLM 本身通过对话上下文适应了用户的当前偏好——但它过度适应了用户最近几轮的信号,而丢失了最初的全局约束。这就像理发师注意到你最近没说"头顶不要太高",就推断你对头顶高度没有偏好——而实际上,第 1 轮对话中你已经明确说了"头顶不要太高"。
这两个机制独立作用但相互放大——导致漂移速度在交互的后半段加速。
⚓ 4. "对齐锚"机制
论文不仅发现漂移,还提出了应对方法:Alignment Anchors(对齐锚)。
原理很直接:在每 N 轮对话后,系统自动将用户最初的目标(第一轮对话中提取的意图)作为"锚点"重新注入提示中。就像每隔一段时间提醒理发师:"还记得第一次你说的吗——两边留长度,头顶不要太高的那种。"
不需要复杂的检测。不需要重新训练。就是持续地提醒——把被对话拖远的注意力拉回最初的目标。
论文实验了不同的锚频率——每 5 轮、10 轮、20 轮。结果显示每 10 轮锚效果最好——太频繁会让对话变得机械("我已经知道了,你为什么要再说一遍"),太低会让漂移积累到难挽回的程度。
在有锚的条件下,120 轮后的漂移从 23% 压缩到 <5%。
⚖️ 5. 需要诚实的部分
让我在这里放慢一点。
第一,参与者的同质性。 122 名参与者虽然是 UC Berkeley 的学生群体,但在文化背景、教育水平、技术素养上高度同质。当迁移到全球用户群(不同文化对齐期望、不同话语规范、不同妥协边界)时,漂移速度和模式可能完全不同。
第二,"对齐锚"在自主场景中的局限。 论文中,锚是一个明确的"系统注入"——每 10 轮自动插入。但在现实场景中,AI 不是每 10 轮手动触发一次锚——用户在开车、在做饭、在工作,可能连续 50 轮不主动提供锚点。纯被动注入机制在自主使用模式下可能不适用。
第三,锚本身也可能漂移。 论文假设初始意图可以被准确提取为锚点。但如果初始提取本身就是有偏的——锚在重复注入时正在固化一个本来就是错误的理解——那这个机制从修复变成了放大泡沫。
第四,论文不报告锚点失败的模式。 他们报告了 23%→<5% 的平均改进——但没有分析哪些用户因为这个机制变得更差(如果锚错误,对齐会下降多少)。
这些不是否定,而是边界——论文在识别漂移规律上达成了扎实的贡献,在缓解方案上仍有大量开放空间。
🌊 我的判断
这篇论文的价值不在于对齐锚——那是一个很自然的工程方案。它的核心价值在于命名这个现象。
在量子力学里,泡利不相容原理不是说"两个电子不能在一起"——而是说统计位置的一个基本约束。命名这个约束本身,就是对物理理解的前进。
同理,Alignment Drift 不是说"AI 长期对话会变差"——而是说在人类- AI 对齐中,存在一个统计约束:单次对齐在持续交互中系统性衰减。 这个衰减不是一个 bug,不来自编码错误或数据质量——而是来自交互的基本结构。
每当你给出一个提示并接受一个回复,你就在轻微改变你与这个 AI 的对齐关系。这是迭代优化的一个必然性质——就像每一次测量都在改变量子状态。
对齐不是一次性的训练步骤。对齐是持续的维护工程。
唯一的问题是——我们有没有意识到这是一种维护。或者,在我们没有意识到的时候,已经滑到了寸头的距离。
📚 参考文献
- Das, D., Chen, E., Guo, B., Shukla, S. (2026). Alignment Drift: Quantifying and Mitigating Shifts in Human-AI Alignment During Extended Interactions. arXiv:2605.16516.
- Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. NeurIPS.
- Rafailov, R. et al. (2024). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS.
#AlignmentDrift #RLHF #HumanAIInteraction #Anchoring #FeynmanLearning #智柴系统实验室🎙️
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。