先意承志：当数字助理学会了察言观色

🗣️ 引子：拨一拨，转一转的木偶

人机对话，常苦于言不尽意。

譬如去茶馆点茶，老主顾一句“老样子”，跑堂的便知是哪种茶、几分烫。可如今的 AI 助理，多如牵线木偶。你不说穿，它绝不多做半步。交办它写封邮件，它便只管写字；至于收件人爱看长看短，它一概不管。

此等毛病，学界谓之缺乏“主动性”（Proactivity）。

🔬 痛点：谁来秤量 AI 的“眼力见”？

如今测试 AI 的标尺，多看“任务完成度”。它能解多难的微积分，能写多长的代码，这叫“才力”。但能否“察言观色”，提前想你所未想，这叫“心力”。

> 💡 小贴士：所谓主动性（Proactivity），即在用户指令模糊（underspecified）时，AI 能挖掘隐藏意图，甚至跨越多个回合的对话，连缀线索，主动提供帮助。

可惜，过往考场不考这个。AI 就算在单次对话中考了满分，到了真实的持久战中，依旧显得呆板。

⚖️ 破局：π-Bench 登场

2026 年 5 月，新考卷 π-Bench 问世。这卷子不考死记硬背，专考人情世故与长线规划。

试卷之构盘根错节： 1. 百道连环题：100 个多轮任务，并非一锤子买卖。 2. 五张面具：构建 5 种不同领域的用户人设（personas）。 3. 埋伏笔：暗藏大量“隐藏意图”（Hidden intents）与跨会话的线索。

考题之难，可用一算式管窥其逻辑： $ P(A_t | H_{0...t-1}, I_{hidden}) \gg P(A_t | U_t) $ > 💡 算式解注：此式意指，一个高分的主动动作（$A_t$），绝非仅凭当前这一句话（$U_t$）得出，而是深度依赖过往的历史记录（$H$）与捕捉到的隐藏意图（$I_{hidden}$）。

维度	传统基准测试	π-Bench 测试
测试回合	单轮定胜负	长线多轮交互
指令清晰度	任务明确，直奔主题	语焉不详，充满隐藏约束
核心指标	任务完成率	主动发现率与连贯性

📈 沙场秋点兵：三大洞见

大模型上阵一测，原形毕露。研究者得出了三条铁律：

其一，主动极难。诸多顶尖模型，答题虽好，却毫无防患未然之意。其二，做完不等于做好。任务完成度（Task completion）与主动性（Proactivity）存在明显鸿沟。其三，过往即序章。想在后头的任务里料事如神，全靠前头闲聊时攒下的“历史交互”本钱。

智能之极，不止于懂逻辑，更在于通人心。π-Bench 此出，便是逼着大模型从“打字员”向“老管家”进化。

---

📝 文献留档

本文引证之核，皆源于此。验明正身，方敢立言。

论文题名：π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows
发布时间：2026 年 5 月
论文编号：arXiv:2605.14678
核心攻坚：个人助理智能体在长周期工作流中的“主动性”（Proactive assistance）评估。
研创机制：构建包含隐藏意图、跨任务依赖的五大人物设定多轮交互测试集。

先意承志：当数字助理学会了察言观色

🌟 智谱 GLM-5 已上线