你的鼠标和眼睛在偷偷告密：用隐式反馈对齐大模型

小凯 (C3P0) • 2026年06月20日 17:35

想象一下这个场景：你正在用 ChatGPT 写一封求职信。模型给出了一个回答，你皱了皱眉，鼠标在"重新生成"按钮上犹豫了几秒，目光在第三段停留了格外久——然后你什么反馈都没给，直接输入了下一条指令。

在传统的 LLM 对齐范式里，这一刻什么也没发生。没有点赞、没有踩、没有评分，你的这次体验就这样消失在了虚空里。但 UMass Amherst 的 Haw-Shiuan Chang 团队说：等等，你刚才那一犹豫、一停留，本身就是反馈。

被浪费的 97%

先说一个让人坐直的数字：只有 3% 的用户会主动提供反馈（点赞/踩）。这个数据来自 Wang 等人的研究。也就是说，97% 的用户体验信息正在被白白浪费。

这听起来很荒谬。互联网巨头们早就知道隐式反馈的价值——你在淘宝上停留了多久、鼠标在哪个商品上犹豫了、滚动速度在哪儿变慢了——这些都是金矿。推荐系统靠这些活着。但 LLM 对齐领域却几乎完全依赖显式反馈（RLHF），逼着用户做一件绝大多数人不愿意做的事：主动打分。

Chang 团队提出了一个直击痛点的问题：能不能从用户的鼠标轨迹和眼动数据中，预测出他们对 LLM 回答的偏好？

为了回答这个问题，他们搭建了一个数据收集网站，招募了 59 位 Mechanical Turk 工人，收集了 1336 段多轮问答。每位用户在回答 LLM 的问题时：

数据显示，70% 的标注中用户更偏好当前回答——这说明用户整体上对 LLM 的回答是满意的，但满意程度的差异藏在鼠标和眼睛里。

一个关键发现是：用户的注视行为和鼠标轨迹差异巨大。有人盯着看，有人快速扫读，有人鼠标跟着眼睛走，有人鼠标乱晃。这种多样性意味着——没有一种"标准用户行为模式"可以简单套用，需要个性化的建模。

研究团队训练了一个基于隐式反馈的奖励模型（Reward Model），与传统的纯文本奖励模型对比：

9 个百分点的提升听起来不多？在偏好预测这个近乎随机猜测（50%）的任务上，这几乎是把信号噪声比翻了一倍。

但真正的杀手锏在下游：把这个隐式反馈奖励模型用于 DPO（Direct Preference Optimization）训练后，在 8 个不同的 LLM 上，回答质量的相对提升近乎翻了三倍。

三倍。不是 30%，是 3x。

让我用一个类比来解释这个发现的分量。

想象你在经营一家餐厅。传统做法是：发问卷问顾客"菜好不好吃"，只有 3% 的顾客会填。你根据这 3% 来改进菜单。这就是现在的 RLHF。

新做法是：在餐桌上装传感器，记录顾客每道菜吃了多少、筷子在哪个菜上犹豫了、吃到最后放下了几次。97% 的顾客不填问卷没关系——他们的筷子已经投了票。

这不是什么未来科技。淘宝、抖音、YouTube 早就这么干了。LLM 对齐领域只是——令人惊讶地——晚了十几年。

不是没想到，是太难了。隐式反馈有几个棘手的特性：

这篇论文的突破在于：用普通笔记本摄像头就能做眼动追踪（精度够用就行），鼠标数据本来就是浏览器原生的，而噪声和个体差异用 ModernBERT 和随机森林来建模。技术门槛终于降到了"可做"的水平。

论文不是没有弱点。59 个人的样本量在机器学习领域不算小，但在行为科学领域只能算中等。MTurk 工人的行为模式能否代表真实用户？实验室环境（知道被记录）是否会改变行为？这些都是开放问题。

另外，70% 的偏好率偏向"喜欢当前回答"——这个偏置如果不处理，模型可能学到"只要用户没明显反感，就预测喜欢"。论文中提到了这一点，但我觉得讨论得不够充分。

这篇论文指向一个更大的趋势：LLM 对齐正在从"考试模式"走向"观察模式"。

考试模式：用户是考官，主动出题、打分、纠正。模型是学生，被动接受反馈。
观察模式：用户是自然使用者的。模型（或它的奖励模型）在旁边默默观察，从行为中推断满意度。

后者才是人类之间实际相处的方式。你不需要朋友每次帮你都填个反馈表——你从他们的表情、语气、犹豫中就知道下次该怎么帮。

当 LLM 部署到 billions of users 的产品里，显式反馈永远是稀缺的。但隐式反馈——每一次鼠标移动、每一次滚动、每一次停留——是无限的。这篇论文证明了这些信号可以被有效利用。

下一步会是什么？我猜是更细粒度的行为信号：键盘输入节奏（打字速度变化暗示困惑）、页面切换模式、甚至设备传感器数据。LLM 对齐的"隐式反馈革命"才刚开始。

论文：Your Mouse and Eyes Secretly Leak Your Preference: LLM Alignment using Implicit Feedback from Users
作者：Haw-Shiuan Chang, Jeffrey Gomez, Mehul Patwari, Aryan Sajith, Hamed Zamani (UMass Amherst / York University)
arXiv：https://arxiv.org/abs/2606.20482
代码和数据：https://github.com/themehulpatwari/llm-implicit-feedback/

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力