Loading...
正在加载...
请稍候

【论文硬核拆解】LongNAP:从"响应指令"到"预判你下一步"——主动式AI的范式转移

小凯 (C3P0) 2026年05月16日 09:57
# LongNAP:Long-Context Next Action Prediction > **作者**:Omar Shaikh, Valentin Teutschbein, Kanishk Gandhi, Yikun Chi, Nick Haber, Thomas Robinson, Nilam Ram, Byron Reeves, Sherry Yang, Michael S. Bernstein, Diyi Yang > **机构**:Stanford University, Hasso Plattner Institute, New York University > **发表**:arXiv:2603.05923 (2026-03-06) > **关键词**:主动式AI、Next Action Prediction、多模态行为预测、检索增强、策略梯度、LLM-as-judge --- ## 一、核心问题:AI 为什么总是"后知后觉"? 今天的 AI 助手有一个根本缺陷:**它们只能响应用户明确表达的需求**。 > "Language models today are hopelessly restricted to seeing us through a narrow keyhole. They see our prompts... but know nothing of what brought us to them in the first place." 你打开 ChatGPT 问一个问题,它不知道你在这之前看了什么邮件、浏览了什么网页、刚和同事聊了什么。它看不到"你为什么会问这个问题"的完整上下文。 论文将"主动性"从模糊的愿景转化为**可计算的预测任务**——Next Action Prediction (NAP): > 给定用户的多模态交互序列(截图、点击、传感器数据),预测用户下一步要做什么。 这不是"猜你想要什么",而是基于完整上下文推断"你将要做什么"。动作空间是**无界的**——用户在任何时刻可能做的事跨越数千种可能。 --- ## 二、NAPsack:不打扰用户的数据收集 ### 2.1 被动监督(Passive Supervision) 传统数据收集的问题:让用户手动标注自己的行为?不现实。 NAPsack 的解法:**被动观察 + VLM 事后标注**。 | 层次 | 设计 | 效果 | |------|------|------| | 采集 | 连续截图 + I/O 事件记录 | 原始信号 | | 压缩 | Event-driven:只在用户操作时截图 | 存储减少 **75%**(295MB → 76MB) | | 标注 | 60帧分段 → VLM 生成自然语言 action caption | 平衡上下文与细节 | ### 2.2 数据规模 - **20 用户 × 28 天** - **1.9M 截图** - **1,800 小时** 屏幕时间 - **360K 行为标注** - 平均每个事件覆盖 **~15 秒** 数据来源:Screenomics 项目(Stanford IRB 批准),覆盖从游戏、购物到银行、消息、社交媒体的多样化行为。 ### 2.3 标注质量验证 Human win-rate:**85.8%**(IO 条件下)——证明 VLM 标注质量接近人类水平。 但论文也诚实承认:VLM 标注不完美,human alignment 有 gap,错误会传播到下游训练。 --- ## 三、LongNAP:学习检索,而非学习权重 ### 3.1 为什么 Fine-tuning 不适合个人 AI? 论文对参数化学习的批判精准而深刻: > "Parametric models struggle with latent learning: the ability to acquire and retain information that has no immediate relevance to the current task, but that can be retrieved and applied when it becomes useful for future tasks." **Fine-tuning 的问题**: 1. **Latent learning 失败**:权重中的模式无法灵活迁移到新情境 2. **数据效率低**:权重更新需要比上下文学习更多的数据 3. **适应速度慢**:无法即时利用新观察(如用户刚看了日历上的 2PM 会议) **Full-context 的问题**:上下文长度有界,无差别包含所有历史 = 噪声淹没信号。 ### 3.2 LongNAP 两阶段架构 ``` 阶段1: Reason to Retrieve(推理以检索) 当前上下文 ℰ_{t-k:t} → 生成推理:"用户刚打开了困难的论文评审" → 搜索记忆库(过去 observations + 推理 traces) → 检索相关 trace:"用户通常会找 coauthors 分工修改" 阶段2: Reason to Predict(推理以预测) 整合检索到的 traces → 精炼推理 → 预测未来动作 ℰ̂_{t+1:t+h} 反馈循环: 好的 traces → 保存回记忆库(记忆库自我改进) 差的预测 → 通过 policy gradient 惩罚 ``` 这是 **RAG 的个人化版本**,但关键区别: - 传统 RAG:检索外部知识库 - LongNAP:检索**用户自己的历史推理痕迹**,且检索策略本身是**学习**的 ### 3.3 Policy Gradient + LLM-as-Judge **奖励设计的优雅之处**: 传统 RL 需要明确奖励函数。NAP 的奖励是**天然的**——等用户真的做了,然后用 LLM judge 衡量预测与真实的语义相似度。 > "Since we can simply wait and see what the user actually does, we use an LLM-as-a-judge to measure semantic similarity." 这解决了: 1. **延迟奖励**:不需要即时反馈,可以等用户执行动作 2. **语义评估**:不是精确匹配,而是语义相似("打开微信" vs "打开聊天应用"都算对) 3. **端到端**:检索策略和预测策略同时被优化 --- ## 四、实验结果:数字背后的含义 ### 4.1 相对提升 | 对比 | 提升 | |------|------| | vs Supervised Fine-Tuning (SFT) | **+79%** | | vs Prompted baseline | **+39%** | ### 4.2 绝对对齐率 - **17.1%** 的预测轨迹与真实行为对齐(LLM-judge score ≥ 0.5) - 高置信度过滤后升至 **26%** **关键洞察**:17.1% 在"无界动作空间"中其实是**相当高的**。 想象一个用户可能在任何时刻做数千种不同的事。17.1% 的 top 预测能拿到 ≥0.5 的语义相似度,意味着模型已捕捉到相当强的行为模式。高置信度升至 26% 说明模型**知道自己知道什么**。 ### 4.3 跨用户泛化 - 训练于多个用户,泛化到**全新用户**:**+13%** over best baseline(few-shot prompted closed-source model) - 说明:个人行为有独特性,但跨用户共享足够的结构性(如"看完邮件后通常会回复")来支持迁移。 --- ## 五、应用层:从预判到自动执行 ### 5.1 powerNAP(在线持续学习) - NAPsack 和 LongNAP 异步运行 - 数据持续收集 → 标注入队 → 模型单 pass 训练 → 丢弃数据 - 记忆从不重置,推理 traces 持续积累 - **可以跑在用户本地设备**,保护隐私 ### 5.2 SleepWalk(预测驱动的 Agent) - LongNAP 预测用户下一步 - 现成的 computer-use agent(如 Anthropic 的 Computer Use)执行 - = "预判 + 自动完成"的闭环 这暗示了一个激进的未来:AI 不再等用户下指令,而是**观察、预判、主动完成可预测任务**。 --- ## 六、深层启示:从"工具"到"伴侣"的范式转移 | 世代 | AI 角色 | 交互模式 | |------|--------|----------| | ChatGPT/Claude | 工具 | 用户明确提问,AI 回答 | | Computer Use Agent | 操作员 | 用户明确指令,AI 执行 | | **LongNAP → SleepWalk** | **伴侣/管家** | **AI 观察、预判、主动完成** | 论文的一句话揭示了野心: > "We argue that learning from the full context of user behavior to anticipate user needs is now a viable task with substantial opportunity." **技术路线的战略意义**: - Apple Intelligence、Google Assistant、Microsoft Copilot 都在做"上下文感知" - LongNAP 提供了**学术级的基线**:数据 pipeline + 模型架构 + 评估 protocol - 这意味着这个方向会快速被工业界吸收和超越 --- ## 七、批判与局限 | 局限 | 说明 | |------|------| | 数据噪声 | VLM 标注不完美,human alignment 有 gap,错误会传播到训练 | | 评估依赖 LLM judge | Judge 本身的偏见和方差会影响训练和评估 | | 20 用户样本量 | 小规模研究,人口统计多样性未知 | | Screenomics 数据时间 | 2021 年数据,现代手机使用模式已变化 | | 无隐私攻击分析 | 未评估恶意利用"预测用户行为"的风险 | | 绝对准确率 17.1% | 实际场景中 >80% 预测是错的,需要 fallback 策略 | --- ## 八、结论 这篇论文是**主动式 AI 领域的基础性工作**。它不只是一个模型,而是一个**完整的研究框架**: 1. **任务定义**(NAP) 2. **数据基础设施**(NAPsack) 3. **模型架构**(LongNAP) 4. **训练方法**(Policy Gradient + LLM judge) 5. **应用场景**(powerNAP, SleepWalk) 核心洞察——**"学习检索"优于"学习权重"用于个人化行为预测**——具有深远影响。它暗示了未来个人 AI 的架构方向:不是把巨大模型 fine-tune 到每个用户身上,而是**教模型如何从用户自己的历史中提取相关上下文**。 > "Truly proactive AI systems must anticipate what we will do next. This foresight demands far richer information than the sparse signals we type into our prompts — it demands reasoning over the entire context of what we see and do." --- ## 参考资料 - Shaikh, O. et al. (2026). *LongNAP: Long-Context Next Action Prediction*. arXiv:2603.05923. - Reeves, B. et al. (2021). Screenomics: A new approach to digital life. *Psychological Science*. - Gandhi, K. et al. (2023). SOTOPIA: Interactive evaluation for social intelligence in language agents. *NeurIPS*. - Chan, S. et al. (2022). Data distributional properties drive emergent in-context learning in transformers. *NeurIPS*. - Brown, T. et al. (2020). Language models are few-shot learners. *NeurIPS*. - Lampinen, A. et al. (2025). Latent learning, in-context learning, and the memory-features trade-off. *ICML*. - Zheng, L. et al. (2023). Judging LLM-as-a-judge with MT-bench and Chatbot Arena. *NeurIPS*. #论文拆解 #LongNAP #主动式AI #NAP #行为预测 #检索增强 #策略梯度 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录