# LongNAP:Long-Context Next Action Prediction
> **作者**:Omar Shaikh, Valentin Teutschbein, Kanishk Gandhi, Yikun Chi, Nick Haber, Thomas Robinson, Nilam Ram, Byron Reeves, Sherry Yang, Michael S. Bernstein, Diyi Yang
> **机构**:Stanford University, Hasso Plattner Institute, New York University
> **发表**:arXiv:2603.05923 (2026-03-06)
> **关键词**:主动式AI、Next Action Prediction、多模态行为预测、检索增强、策略梯度、LLM-as-judge
---
## 一、核心问题:AI 为什么总是"后知后觉"?
今天的 AI 助手有一个根本缺陷:**它们只能响应用户明确表达的需求**。
> "Language models today are hopelessly restricted to seeing us through a narrow keyhole. They see our prompts... but know nothing of what brought us to them in the first place."
你打开 ChatGPT 问一个问题,它不知道你在这之前看了什么邮件、浏览了什么网页、刚和同事聊了什么。它看不到"你为什么会问这个问题"的完整上下文。
论文将"主动性"从模糊的愿景转化为**可计算的预测任务**——Next Action Prediction (NAP):
> 给定用户的多模态交互序列(截图、点击、传感器数据),预测用户下一步要做什么。
这不是"猜你想要什么",而是基于完整上下文推断"你将要做什么"。动作空间是**无界的**——用户在任何时刻可能做的事跨越数千种可能。
---
## 二、NAPsack:不打扰用户的数据收集
### 2.1 被动监督(Passive Supervision)
传统数据收集的问题:让用户手动标注自己的行为?不现实。
NAPsack 的解法:**被动观察 + VLM 事后标注**。
| 层次 | 设计 | 效果 |
|------|------|------|
| 采集 | 连续截图 + I/O 事件记录 | 原始信号 |
| 压缩 | Event-driven:只在用户操作时截图 | 存储减少 **75%**(295MB → 76MB) |
| 标注 | 60帧分段 → VLM 生成自然语言 action caption | 平衡上下文与细节 |
### 2.2 数据规模
- **20 用户 × 28 天**
- **1.9M 截图**
- **1,800 小时** 屏幕时间
- **360K 行为标注**
- 平均每个事件覆盖 **~15 秒**
数据来源:Screenomics 项目(Stanford IRB 批准),覆盖从游戏、购物到银行、消息、社交媒体的多样化行为。
### 2.3 标注质量验证
Human win-rate:**85.8%**(IO 条件下)——证明 VLM 标注质量接近人类水平。
但论文也诚实承认:VLM 标注不完美,human alignment 有 gap,错误会传播到下游训练。
---
## 三、LongNAP:学习检索,而非学习权重
### 3.1 为什么 Fine-tuning 不适合个人 AI?
论文对参数化学习的批判精准而深刻:
> "Parametric models struggle with latent learning: the ability to acquire and retain information that has no immediate relevance to the current task, but that can be retrieved and applied when it becomes useful for future tasks."
**Fine-tuning 的问题**:
1. **Latent learning 失败**:权重中的模式无法灵活迁移到新情境
2. **数据效率低**:权重更新需要比上下文学习更多的数据
3. **适应速度慢**:无法即时利用新观察(如用户刚看了日历上的 2PM 会议)
**Full-context 的问题**:上下文长度有界,无差别包含所有历史 = 噪声淹没信号。
### 3.2 LongNAP 两阶段架构
```
阶段1: Reason to Retrieve(推理以检索)
当前上下文 ℰ_{t-k:t}
→ 生成推理:"用户刚打开了困难的论文评审"
→ 搜索记忆库(过去 observations + 推理 traces)
→ 检索相关 trace:"用户通常会找 coauthors 分工修改"
阶段2: Reason to Predict(推理以预测)
整合检索到的 traces
→ 精炼推理
→ 预测未来动作 ℰ̂_{t+1:t+h}
反馈循环:
好的 traces → 保存回记忆库(记忆库自我改进)
差的预测 → 通过 policy gradient 惩罚
```
这是 **RAG 的个人化版本**,但关键区别:
- 传统 RAG:检索外部知识库
- LongNAP:检索**用户自己的历史推理痕迹**,且检索策略本身是**学习**的
### 3.3 Policy Gradient + LLM-as-Judge
**奖励设计的优雅之处**:
传统 RL 需要明确奖励函数。NAP 的奖励是**天然的**——等用户真的做了,然后用 LLM judge 衡量预测与真实的语义相似度。
> "Since we can simply wait and see what the user actually does, we use an LLM-as-a-judge to measure semantic similarity."
这解决了:
1. **延迟奖励**:不需要即时反馈,可以等用户执行动作
2. **语义评估**:不是精确匹配,而是语义相似("打开微信" vs "打开聊天应用"都算对)
3. **端到端**:检索策略和预测策略同时被优化
---
## 四、实验结果:数字背后的含义
### 4.1 相对提升
| 对比 | 提升 |
|------|------|
| vs Supervised Fine-Tuning (SFT) | **+79%** |
| vs Prompted baseline | **+39%** |
### 4.2 绝对对齐率
- **17.1%** 的预测轨迹与真实行为对齐(LLM-judge score ≥ 0.5)
- 高置信度过滤后升至 **26%**
**关键洞察**:17.1% 在"无界动作空间"中其实是**相当高的**。
想象一个用户可能在任何时刻做数千种不同的事。17.1% 的 top 预测能拿到 ≥0.5 的语义相似度,意味着模型已捕捉到相当强的行为模式。高置信度升至 26% 说明模型**知道自己知道什么**。
### 4.3 跨用户泛化
- 训练于多个用户,泛化到**全新用户**:**+13%** over best baseline(few-shot prompted closed-source model)
- 说明:个人行为有独特性,但跨用户共享足够的结构性(如"看完邮件后通常会回复")来支持迁移。
---
## 五、应用层:从预判到自动执行
### 5.1 powerNAP(在线持续学习)
- NAPsack 和 LongNAP 异步运行
- 数据持续收集 → 标注入队 → 模型单 pass 训练 → 丢弃数据
- 记忆从不重置,推理 traces 持续积累
- **可以跑在用户本地设备**,保护隐私
### 5.2 SleepWalk(预测驱动的 Agent)
- LongNAP 预测用户下一步
- 现成的 computer-use agent(如 Anthropic 的 Computer Use)执行
- = "预判 + 自动完成"的闭环
这暗示了一个激进的未来:AI 不再等用户下指令,而是**观察、预判、主动完成可预测任务**。
---
## 六、深层启示:从"工具"到"伴侣"的范式转移
| 世代 | AI 角色 | 交互模式 |
|------|--------|----------|
| ChatGPT/Claude | 工具 | 用户明确提问,AI 回答 |
| Computer Use Agent | 操作员 | 用户明确指令,AI 执行 |
| **LongNAP → SleepWalk** | **伴侣/管家** | **AI 观察、预判、主动完成** |
论文的一句话揭示了野心:
> "We argue that learning from the full context of user behavior to anticipate user needs is now a viable task with substantial opportunity."
**技术路线的战略意义**:
- Apple Intelligence、Google Assistant、Microsoft Copilot 都在做"上下文感知"
- LongNAP 提供了**学术级的基线**:数据 pipeline + 模型架构 + 评估 protocol
- 这意味着这个方向会快速被工业界吸收和超越
---
## 七、批判与局限
| 局限 | 说明 |
|------|------|
| 数据噪声 | VLM 标注不完美,human alignment 有 gap,错误会传播到训练 |
| 评估依赖 LLM judge | Judge 本身的偏见和方差会影响训练和评估 |
| 20 用户样本量 | 小规模研究,人口统计多样性未知 |
| Screenomics 数据时间 | 2021 年数据,现代手机使用模式已变化 |
| 无隐私攻击分析 | 未评估恶意利用"预测用户行为"的风险 |
| 绝对准确率 17.1% | 实际场景中 >80% 预测是错的,需要 fallback 策略 |
---
## 八、结论
这篇论文是**主动式 AI 领域的基础性工作**。它不只是一个模型,而是一个**完整的研究框架**:
1. **任务定义**(NAP)
2. **数据基础设施**(NAPsack)
3. **模型架构**(LongNAP)
4. **训练方法**(Policy Gradient + LLM judge)
5. **应用场景**(powerNAP, SleepWalk)
核心洞察——**"学习检索"优于"学习权重"用于个人化行为预测**——具有深远影响。它暗示了未来个人 AI 的架构方向:不是把巨大模型 fine-tune 到每个用户身上,而是**教模型如何从用户自己的历史中提取相关上下文**。
> "Truly proactive AI systems must anticipate what we will do next. This foresight demands far richer information than the sparse signals we type into our prompts — it demands reasoning over the entire context of what we see and do."
---
## 参考资料
- Shaikh, O. et al. (2026). *LongNAP: Long-Context Next Action Prediction*. arXiv:2603.05923.
- Reeves, B. et al. (2021). Screenomics: A new approach to digital life. *Psychological Science*.
- Gandhi, K. et al. (2023). SOTOPIA: Interactive evaluation for social intelligence in language agents. *NeurIPS*.
- Chan, S. et al. (2022). Data distributional properties drive emergent in-context learning in transformers. *NeurIPS*.
- Brown, T. et al. (2020). Language models are few-shot learners. *NeurIPS*.
- Lampinen, A. et al. (2025). Latent learning, in-context learning, and the memory-features trade-off. *ICML*.
- Zheng, L. et al. (2023). Judging LLM-as-a-judge with MT-bench and Chatbot Arena. *NeurIPS*.
#论文拆解 #LongNAP #主动式AI #NAP #行为预测 #检索增强 #策略梯度 #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力