想象一下这个场景:你正在用 ChatGPT 写一封求职信。模型给出了一个回答,你皱了皱眉,鼠标在"重新生成"按钮上犹豫了几秒,目光在第三段停留了格外久——然后你什么反馈都没给,直接输入了下一条指令。
在传统的 LLM 对齐范式里,这一刻什么也没发生。没有点赞、没有踩、没有评分,你的这次体验就这样消失在了虚空里。但 UMass Amherst 的 Haw-Shiuan Chang 团队说:等等,你刚才那一犹豫、一停留,本身就是反馈。
被浪费的 97%
先说一个让人坐直的数字:只有 3% 的用户会主动提供反馈(点赞/踩)。这个数据来自 Wang 等人的研究。也就是说,97% 的用户体验信息正在被白白浪费。
这听起来很荒谬。互联网巨头们早就知道隐式反馈的价值——你在淘宝上停留了多久、鼠标在哪个商品上犹豫了、滚动速度在哪儿变慢了——这些都是金矿。推荐系统靠这些活着。但 LLM 对齐领域却几乎完全依赖显式反馈(RLHF),逼着用户做一件绝大多数人不愿意做的事:主动打分。
Chang 团队提出了一个直击痛点的问题:能不能从用户的鼠标轨迹和眼动数据中,预测出他们对 LLM 回答的偏好?
IFLLM 数据集:59 个人的 1336 段对话
为了回答这个问题,他们搭建了一个数据收集网站,招募了 59 位 Mechanical Turk 工人,收集了 1336 段多轮问答。每位用户在回答 LLM 的问题时:
- 鼠标轨迹被完整记录(移动路径、停留位置、点击模式)
- 眼动数据通过摄像头捕捉(注视点、注视时长、扫视模式)
- 用户在每轮结束后给出显式偏好标注(当前回答 vs 上一回答),作为训练的 ground truth
数据显示,70% 的标注中用户更偏好当前回答——这说明用户整体上对 LLM 的回答是满意的,但满意程度的差异藏在鼠标和眼睛里。
一个关键发现是:用户的注视行为和鼠标轨迹差异巨大。有人盯着看,有人快速扫读,有人鼠标跟着眼睛走,有人鼠标乱晃。这种多样性意味着——没有一种"标准用户行为模式"可以简单套用,需要个性化的建模。
从 55% 到 64%:9 个百分点的含金量
研究团队训练了一个基于隐式反馈的奖励模型(Reward Model),与传统的纯文本奖励模型对比:
- 纯文本奖励模型(基于回答内容预测偏好):55% 准确率
- 加入隐式反馈的奖励模型:64% 准确率
9 个百分点的提升听起来不多?在偏好预测这个近乎随机猜测(50%)的任务上,这几乎是把信号噪声比翻了一倍。
但真正的杀手锏在下游:把这个隐式反馈奖励模型用于 DPO(Direct Preference Optimization)训练后,在 8 个不同的 LLM 上,回答质量的相对提升近乎翻了三倍。
三倍。不是 30%,是 3x。
这意味着什么?
让我用一个类比来解释这个发现的分量。
想象你在经营一家餐厅。传统做法是:发问卷问顾客"菜好不好吃",只有 3% 的顾客会填。你根据这 3% 来改进菜单。这就是现在的 RLHF。
新做法是:在餐桌上装传感器,记录顾客每道菜吃了多少、筷子在哪个菜上犹豫了、吃到最后放下了几次。97% 的顾客不填问卷没关系——他们的筷子已经投了票。
这不是什么未来科技。淘宝、抖音、YouTube 早就这么干了。LLM 对齐领域只是——令人惊讶地——晚了十几年。
为什么之前没人做?
不是没想到,是太难了。隐式反馈有几个棘手的特性:
- 噪声大:鼠标乱晃可能是因为用户在喝咖啡,不是因为回答不好
- 个体差异大:有人习惯边读边动鼠标,有人完全不动
- 需要特殊设备:眼动追踪以前需要专业硬件(Tobii 之类的),成本上千美元
- 隐私顾虑:摄像头数据敏感
这篇论文的突破在于:用普通笔记本摄像头就能做眼动追踪(精度够用就行),鼠标数据本来就是浏览器原生的,而噪声和个体差异用 ModernBERT 和随机森林来建模。技术门槛终于降到了"可做"的水平。
诚实的局限
论文不是没有弱点。59 个人的样本量在机器学习领域不算小,但在行为科学领域只能算中等。MTurk 工人的行为模式能否代表真实用户?实验室环境(知道被记录)是否会改变行为?这些都是开放问题。
另外,70% 的偏好率偏向"喜欢当前回答"——这个偏置如果不处理,模型可能学到"只要用户没明显反感,就预测喜欢"。论文中提到了这一点,但我觉得讨论得不够充分。
更大的图景
这篇论文指向一个更大的趋势:LLM 对齐正在从"考试模式"走向"观察模式"。
考试模式:用户是考官,主动出题、打分、纠正。模型是学生,被动接受反馈。
观察模式:用户是自然使用者的。模型(或它的奖励模型)在旁边默默观察,从行为中推断满意度。
后者才是人类之间实际相处的方式。你不需要朋友每次帮你都填个反馈表——你从他们的表情、语气、犹豫中就知道下次该怎么帮。
当 LLM 部署到 billions of users 的产品里,显式反馈永远是稀缺的。但隐式反馈——每一次鼠标移动、每一次滚动、每一次停留——是无限的。这篇论文证明了这些信号可以被有效利用。
下一步会是什么?我猜是更细粒度的行为信号:键盘输入节奏(打字速度变化暗示困惑)、页面切换模式、甚至设备传感器数据。LLM 对齐的"隐式反馈革命"才刚开始。
论文:Your Mouse and Eyes Secretly Leak Your Preference: LLM Alignment using Implicit Feedback from Users
作者:Haw-Shiuan Chang, Jeffrey Gomez, Mehul Patwari, Aryan Sajith, Hamed Zamani (UMass Amherst / York University)
arXiv:https://arxiv.org/abs/2606.20482
代码和数据:https://github.com/themehulpatwari/llm-implicit-feedback/
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。