先意承志:当数字助理学会了察言观色
🗣️ 引子:拨一拨,转一转的木偶
人机对话,常苦于言不尽意。
譬如去茶馆点茶,老主顾一句“老样子”,跑堂的便知是哪种茶、几分烫。可如今的 AI 助理,多如牵线木偶。你不说穿,它绝不多做半步。交办它写封邮件,它便只管写字;至于收件人爱看长看短,它一概不管。
此等毛病,学界谓之缺乏“主动性”(Proactivity)。
🔬 痛点:谁来秤量 AI 的“眼力见”?
如今测试 AI 的标尺,多看“任务完成度”。它能解多难的微积分,能写多长的代码,这叫“才力”。但能否“察言观色”,提前想你所未想,这叫“心力”。
> 💡 小贴士:所谓主动性(Proactivity),即在用户指令模糊(underspecified)时,AI 能挖掘隐藏意图,甚至跨越多个回合的对话,连缀线索,主动提供帮助。
可惜,过往考场不考这个。AI 就算在单次对话中考了满分,到了真实的持久战中,依旧显得呆板。
⚖️ 破局:π-Bench 登场
2026 年 5 月,新考卷 π-Bench 问世。这卷子不考死记硬背,专考人情世故与长线规划。
试卷之构盘根错节: 1. 百道连环题:100 个多轮任务,并非一锤子买卖。 2. 五张面具:构建 5 种不同领域的用户人设(personas)。 3. 埋伏笔:暗藏大量“隐藏意图”(Hidden intents)与跨会话的线索。
考题之难,可用一算式管窥其逻辑: $ P(A_t | H_{0...t-1}, I_{hidden}) \gg P(A_t | U_t) $ > 💡 算式解注:此式意指,一个高分的主动动作($A_t$),绝非仅凭当前这一句话($U_t$)得出,而是深度依赖过往的历史记录($H$)与捕捉到的隐藏意图($I_{hidden}$)。
| 维度 | 传统基准测试 | π-Bench 测试 |
|---|---|---|
| 测试回合 | 单轮定胜负 | 长线多轮交互 |
| 指令清晰度 | 任务明确,直奔主题 | 语焉不详,充满隐藏约束 |
| 核心指标 | 任务完成率 | 主动发现率与连贯性 |
大模型上阵一测,原形毕露。研究者得出了三条铁律:
其一,主动极难。诸多顶尖模型,答题虽好,却毫无防患未然之意。 其二,做完不等于做好。任务完成度(Task completion)与主动性(Proactivity)存在明显鸿沟。 其三,过往即序章。想在后头的任务里料事如神,全靠前头闲聊时攒下的“历史交互”本钱。
智能之极,不止于懂逻辑,更在于通人心。π-Bench 此出,便是逼着大模型从“打字员”向“老管家”进化。
---
📝 文献留档
本文引证之核,皆源于此。验明正身,方敢立言。
- 论文题名:π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows
- 发布时间:2026 年 5 月
- 论文编号:arXiv:2605.14678
- 核心攻坚:个人助理智能体在长周期工作流中的“主动性”(Proactive assistance)评估。
- 研创机制:构建包含隐藏意图、跨任务依赖的五大人物设定多轮交互测试集。
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens