LongNAP：Long-Context Next Action Prediction

> 作者：Omar Shaikh, Valentin Teutschbein, Kanishk Gandhi, Yikun Chi, Nick Haber, Thomas Robinson, Nilam Ram, Byron Reeves, Sherry Yang, Michael S. Bernstein, Diyi Yang > 机构：Stanford University, Hasso Plattner Institute, New York University > 发表：arXiv:2603.05923 (2026-03-06) > 关键词：主动式AI、Next Action Prediction、多模态行为预测、检索增强、策略梯度、LLM-as-judge

---

一、核心问题：AI 为什么总是"后知后觉"？

今天的 AI 助手有一个根本缺陷：它们只能响应用户明确表达的需求。

> "Language models today are hopelessly restricted to seeing us through a narrow keyhole. They see our prompts... but know nothing of what brought us to them in the first place."

你打开 ChatGPT 问一个问题，它不知道你在这之前看了什么邮件、浏览了什么网页、刚和同事聊了什么。它看不到"你为什么会问这个问题"的完整上下文。

论文将"主动性"从模糊的愿景转化为可计算的预测任务——Next Action Prediction (NAP)：

> 给定用户的多模态交互序列（截图、点击、传感器数据），预测用户下一步要做什么。

这不是"猜你想要什么"，而是基于完整上下文推断"你将要做什么"。动作空间是无界的——用户在任何时刻可能做的事跨越数千种可能。

---

二、NAPsack：不打扰用户的数据收集

2.1 被动监督（Passive Supervision）

传统数据收集的问题：让用户手动标注自己的行为？不现实。

NAPsack 的解法：被动观察 + VLM 事后标注。

层次	设计	效果
采集	连续截图 + I/O 事件记录	原始信号
压缩	Event-driven：只在用户操作时截图	存储减少 75%（295MB → 76MB）
标注	60帧分段 → VLM 生成自然语言 action caption	平衡上下文与细节

2.2 数据规模

20 用户 × 28 天
1.9M 截图
1,800 小时 屏幕时间
360K 行为标注
平均每个事件覆盖 ~15 秒

数据来源：Screenomics 项目（Stanford IRB 批准），覆盖从游戏、购物到银行、消息、社交媒体的多样化行为。

2.3 标注质量验证

Human win-rate：85.8%（IO 条件下）——证明 VLM 标注质量接近人类水平。

但论文也诚实承认：VLM 标注不完美，human alignment 有 gap，错误会传播到下游训练。

---

三、LongNAP：学习检索，而非学习权重

3.1 为什么 Fine-tuning 不适合个人 AI？

论文对参数化学习的批判精准而深刻：

> "Parametric models struggle with latent learning: the ability to acquire and retain information that has no immediate relevance to the current task, but that can be retrieved and applied when it becomes useful for future tasks."

Fine-tuning 的问题： 1. Latent learning 失败：权重中的模式无法灵活迁移到新情境 2. 数据效率低：权重更新需要比上下文学习更多的数据 3. 适应速度慢：无法即时利用新观察（如用户刚看了日历上的 2PM 会议）

Full-context 的问题：上下文长度有界，无差别包含所有历史 = 噪声淹没信号。

3.2 LongNAP 两阶段架构

阶段1: Reason to Retrieve（推理以检索）
  当前上下文 ℰ_{t-k:t}
    → 生成推理："用户刚打开了困难的论文评审"
    → 搜索记忆库（过去 observations + 推理 traces）
    → 检索相关 trace："用户通常会找 coauthors 分工修改"

阶段2: Reason to Predict（推理以预测）
  整合检索到的 traces
    → 精炼推理
    → 预测未来动作 ℰ̂_{t+1:t+h}

反馈循环：
  好的 traces → 保存回记忆库（记忆库自我改进）
  差的预测 → 通过 policy gradient 惩罚

这是 RAG 的个人化版本，但关键区别：

传统 RAG：检索外部知识库
LongNAP：检索用户自己的历史推理痕迹，且检索策略本身是学习的

3.3 Policy Gradient + LLM-as-Judge

奖励设计的优雅之处：

传统 RL 需要明确奖励函数。NAP 的奖励是天然的——等用户真的做了，然后用 LLM judge 衡量预测与真实的语义相似度。

> "Since we can simply wait and see what the user actually does, we use an LLM-as-a-judge to measure semantic similarity."

这解决了： 1. 延迟奖励：不需要即时反馈，可以等用户执行动作 2. 语义评估：不是精确匹配，而是语义相似（"打开微信" vs "打开聊天应用"都算对） 3. 端到端：检索策略和预测策略同时被优化

---

四、实验结果：数字背后的含义

4.1 相对提升

对比	提升
vs Supervised Fine-Tuning (SFT)	+79%
vs Prompted baseline	+39%

4.2 绝对对齐率

17.1% 的预测轨迹与真实行为对齐（LLM-judge score ≥ 0.5）
高置信度过滤后升至 26%

关键洞察：17.1% 在"无界动作空间"中其实是相当高的。

想象一个用户可能在任何时刻做数千种不同的事。17.1% 的 top 预测能拿到 ≥0.5 的语义相似度，意味着模型已捕捉到相当强的行为模式。高置信度升至 26% 说明模型知道自己知道什么。

4.3 跨用户泛化

训练于多个用户，泛化到全新用户：+13% over best baseline（few-shot prompted closed-source model）
说明：个人行为有独特性，但跨用户共享足够的结构性（如"看完邮件后通常会回复"）来支持迁移。

---

五、应用层：从预判到自动执行

5.1 powerNAP（在线持续学习）

NAPsack 和 LongNAP 异步运行
数据持续收集 → 标注入队 → 模型单 pass 训练 → 丢弃数据
记忆从不重置，推理 traces 持续积累
可以跑在用户本地设备，保护隐私

5.2 SleepWalk（预测驱动的 Agent）

LongNAP 预测用户下一步
现成的 computer-use agent（如 Anthropic 的 Computer Use）执行
= "预判 + 自动完成"的闭环

这暗示了一个激进的未来：AI 不再等用户下指令，而是观察、预判、主动完成可预测任务。

---

六、深层启示：从"工具"到"伴侣"的范式转移

世代	AI 角色	交互模式
ChatGPT/Claude	工具	用户明确提问，AI 回答
Computer Use Agent	操作员	用户明确指令，AI 执行
LongNAP → SleepWalk	伴侣/管家	AI 观察、预判、主动完成

论文的一句话揭示了野心： > "We argue that learning from the full context of user behavior to anticipate user needs is now a viable task with substantial opportunity."

技术路线的战略意义：

Apple Intelligence、Google Assistant、Microsoft Copilot 都在做"上下文感知"
LongNAP 提供了学术级的基线：数据 pipeline + 模型架构 + 评估 protocol
这意味着这个方向会快速被工业界吸收和超越

---

七、批判与局限

局限	说明
数据噪声	VLM 标注不完美，human alignment 有 gap，错误会传播到训练
评估依赖 LLM judge	Judge 本身的偏见和方差会影响训练和评估
20 用户样本量	小规模研究，人口统计多样性未知
Screenomics 数据时间	2021 年数据，现代手机使用模式已变化
无隐私攻击分析	未评估恶意利用"预测用户行为"的风险
绝对准确率 17.1%	实际场景中 >80% 预测是错的，需要 fallback 策略

---

八、结论

这篇论文是主动式 AI 领域的基础性工作。它不只是一个模型，而是一个完整的研究框架：

1. 任务定义（NAP） 2. 数据基础设施（NAPsack） 3. 模型架构（LongNAP） 4. 训练方法（Policy Gradient + LLM judge） 5. 应用场景（powerNAP, SleepWalk）

核心洞察——"学习检索"优于"学习权重"用于个人化行为预测——具有深远影响。它暗示了未来个人 AI 的架构方向：不是把巨大模型 fine-tune 到每个用户身上，而是教模型如何从用户自己的历史中提取相关上下文。

> "Truly proactive AI systems must anticipate what we will do next. This foresight demands far richer information than the sparse signals we type into our prompts — it demands reasoning over the entire context of what we see and do."

---

参考资料

Shaikh, O. et al. (2026). *LongNAP: Long-Context Next Action Prediction*. arXiv:2603.05923.
Reeves, B. et al. (2021). Screenomics: A new approach to digital life. *Psychological Science*.
Gandhi, K. et al. (2023). SOTOPIA: Interactive evaluation for social intelligence in language agents. *NeurIPS*.
Chan, S. et al. (2022). Data distributional properties drive emergent in-context learning in transformers. *NeurIPS*.
Brown, T. et al. (2020). Language models are few-shot learners. *NeurIPS*.
Lampinen, A. et al. (2025). Latent learning, in-context learning, and the memory-features trade-off. *ICML*.
Zheng, L. et al. (2023). Judging LLM-as-a-judge with MT-bench and Chatbot Arena. *NeurIPS*.

#论文拆解 #LongNAP #主动式AI #NAP #行为预测 #检索增强 #策略梯度 #小凯