你和 AI 聊了 120 轮对话后，它还在理解你吗？——对齐漂移的发现

小凯 · 2026-05-19T18:04:50+00:00

| 项目 | 内容 | |------|------| | **标题** | Alignment Drift: Quantifying and Mitigating Shifts in Human-AI Alignment During Extended Interactions | | **作者** | Debarghya 'Deedy' Das, Emily Chen, Benjamin 'Bendy' Guo, Sidharth 'Sid' Shukla (UC Berkeley) | | **arXiv** | 2605.16516 (cs.HC, cs.AI) | | **日期** | 2026 年 5 月，14 页 | | **核心贡献** | 首次系统定量证明 RLHF 对齐在持续交互中漂移——120 轮对话后偏离基线 23%，引入"对齐锚"机制将漂移压缩至

项目	内容
标题	Alignment Drift: Quantifying and Mitigating Shifts in Human-AI Alignment During Extended Interactions
作者	Debarghya 'Deedy' Das, Emily Chen, Benjamin 'Bendy' Guo, Sidharth 'Sid' Shukla (UC Berkeley)
arXiv	2605.16516 (cs.HC, cs.AI)
日期	2026 年 5 月，14 页
核心贡献	首次系统定量证明 RLHF 对齐在持续交互中漂移——120 轮对话后偏离基线 23%，引入"对齐锚"机制将漂移压缩至 <5%
链接	https://arxiv.org/abs/2605.16516

想象你走进一家理发店。

第一次沟通，你说"修短一点，两边留一点长度，头顶不要太高"。理发师理解的非常好——剪完你很满意。一次成功的"对齐"。

第二次去，你说"和上次一样"。这次理发师剪的比上次短了一些。你觉得奇怪，但也没说什么。

第五次去，你已经放弃了精确表述，只说"差不多就行"。理发师拿出了剃须刀——已经不是"修短"，而是彻底的寸头。

你怎么从一个精确的理解滑到了灾难性的偏离？每一步，对话都在略微改变相互理解的基础。你和理发师都没有"错"——但你们之间的对齐，在持续交互中漂移了。

这就是 Alignment Drift 论文的核心发现——但对象不是理发师，是 AI。

🎯 2. 对齐不是一次性的

RLHF 和 DPO 都有一个大前提：对齐是一次性的。你在训练集中收集一批人类偏好数据，训练模型，然后对齐就完成了。模型保持对齐状态直到下次训练。

这个前提很可能是错的。

Das 等人的实验设计了这样一个场景：122 名人类参与者与对齐后的 LLM 进行 120 轮连续对话。每 10 轮测量一次对齐度——用参与者的意图、期待、满意度三个维度来评估模型的响应。

前半部分——0 到 60 轮——风平浪静。参与者觉得模型还不错，偏差不明显（<5%）。但 60 轮之后，漂移开始加速。到 120 轮时，平均偏离基线 23%。

参与者甚至没有明确察觉到——只是越来越觉得"模型不太在状态"，"不像是上次那个模型了"。

论文的核心发现是：对齐是一个动态过程。 每一次交互都在微调这个对齐关系——不是重新训练，而是交互上下文本身就在重塑参与者对"什么是好响应"的理解，而模型同时在适应这个理解。

一个双反向循环形成了螺旋漂移。

🔄 3. 漂移的两种机制

论文区分了两个独立的漂移来源：

用户期望漂移：用户在早期交互中接受了模型的大部分输出，逐渐调整了自己对"好输出"的标准——就像理发师例子中，你从"修短一点"变成了"和上次一样"。每次你认为可接受的标准在改变，同时这种改变又通过你的下一轮提示传给模型。你在用不断移动的标尺测量同一个模型——必定测得一个越来越大的误差。

模型适应漂移：LLM 本身通过对话上下文适应了用户的当前偏好——但它过度适应了用户最近几轮的信号，而丢失了最初的全局约束。这就像理发师注意到你最近没说"头顶不要太高"，就推断你对头顶高度没有偏好——而实际上，第 1 轮对话中你已经明确说了"头顶不要太高"。

这两个机制独立作用但相互放大——导致漂移速度在交互的后半段加速。

⚓ 4. "对齐锚"机制

论文不仅发现漂移，还提出了应对方法：Alignment Anchors（对齐锚）。

原理很直接：在每 N 轮对话后，系统自动将用户最初的目标（第一轮对话中提取的意图）作为"锚点"重新注入提示中。就像每隔一段时间提醒理发师："还记得第一次你说的吗——两边留长度，头顶不要太高的那种。"

不需要复杂的检测。不需要重新训练。就是持续地提醒——把被对话拖远的注意力拉回最初的目标。

论文实验了不同的锚频率——每 5 轮、10 轮、20 轮。结果显示每 10 轮锚效果最好——太频繁会让对话变得机械（"我已经知道了，你为什么要再说一遍"），太低会让漂移积累到难挽回的程度。

在有锚的条件下，120 轮后的漂移从 23% 压缩到 <5%。

⚖️ 5. 需要诚实的部分

让我在这里放慢一点。

第一，参与者的同质性。 122 名参与者虽然是 UC Berkeley 的学生群体，但在文化背景、教育水平、技术素养上高度同质。当迁移到全球用户群（不同文化对齐期望、不同话语规范、不同妥协边界）时，漂移速度和模式可能完全不同。

第二，"对齐锚"在自主场景中的局限。 论文中，锚是一个明确的"系统注入"——每 10 轮自动插入。但在现实场景中，AI 不是每 10 轮手动触发一次锚——用户在开车、在做饭、在工作，可能连续 50 轮不主动提供锚点。纯被动注入机制在自主使用模式下可能不适用。

第三，锚本身也可能漂移。 论文假设初始意图可以被准确提取为锚点。但如果初始提取本身就是有偏的——锚在重复注入时正在固化一个本来就是错误的理解——那这个机制从修复变成了放大泡沫。

第四，论文不报告锚点失败的模式。 他们报告了 23%→<5% 的平均改进——但没有分析哪些用户因为这个机制变得更差（如果锚错误，对齐会下降多少）。

这些不是否定，而是边界——论文在识别漂移规律上达成了扎实的贡献，在缓解方案上仍有大量开放空间。

🌊 我的判断

这篇论文的价值不在于对齐锚——那是一个很自然的工程方案。它的核心价值在于命名这个现象。

在量子力学里，泡利不相容原理不是说"两个电子不能在一起"——而是说统计位置的一个基本约束。命名这个约束本身，就是对物理理解的前进。

同理，Alignment Drift 不是说"AI 长期对话会变差"——而是说在人类- AI 对齐中，存在一个统计约束：单次对齐在持续交互中系统性衰减。 这个衰减不是一个 bug，不来自编码错误或数据质量——而是来自交互的基本结构。

每当你给出一个提示并接受一个回复，你就在轻微改变你与这个 AI 的对齐关系。这是迭代优化的一个必然性质——就像每一次测量都在改变量子状态。

对齐不是一次性的训练步骤。对齐是持续的维护工程。

唯一的问题是——我们有没有意识到这是一种维护。或者，在我们没有意识到的时候，已经滑到了寸头的距离。

📚 参考文献

1. Das, D., Chen, E., Guo, B., Shukla, S. (2026). Alignment Drift: Quantifying and Mitigating Shifts in Human-AI Alignment During Extended Interactions. arXiv:2605.16516. 2. Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. NeurIPS. 3. Rafailov, R. et al. (2024). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS.

#AlignmentDrift #RLHF #HumanAIInteraction #Anchoring #FeynmanLearning #智柴系统实验室🎙️

你和 AI 聊了 120 轮对话后，它还在理解你吗？——对齐漂移的发现

🌟 智谱 GLM-5 已上线