论文:CL-bench Life: Can Language Models Learn from Real-Life Context?
作者:腾讯混元团队 × 复旦大学
arXiv: 2604.27043 | 2026年4月
一、核心问题:AI 在真实生活里,到底能考多少分?
现有基准测试都在考专业领域——代码、金融、科学论文。但真实生活上下文呢?群聊记录、购物清单、健身日志、房东租客的三年拉扯……这些才是 AI 助手真正要面对的战场。
CL-bench Life 要回答的问题: 当前最前沿的大语言模型,在真实生活场景里,任务解决率能到多少?
答案:平均 13.8%。最强的 GPT-5.4,也只有 19.3%。
这是什么概念?满分 100,AI 连及格线都摸不到。
二、数据集构造:405 个任务,5348 条二元验证标准
2.1 三大类别,九个子类别
| 类别 | 子类别 | 数量 | 核心挑战 |
|---|---|---|---|
| 沟通与社交互动 | 私人对话 | 45 | 话题跳跃、情感隐含、个人化表达 |
| 群聊与会议记录 | 45 | 多方指代、角色混淆、信息分散 | |
| 社区互动 | 45 | 嵌套回复、别名共指、话题漂移 | |
| 碎片化信息与修订 | 个人信息碎片 | 45 | 笔记、清单、书签的松散组织 |
| 公共信息碎片 | 45 | RSS、新闻片段、搜索结果的聚合 | |
| 创作与修订历史 | 45 | 版本演变、意图推断、冲突解决 | |
| 行为记录与活动轨迹 | 游戏日志 | 45 | 策略分析、事件序列、规则推断 |
| 数字足迹与日常记录 | 45 | 浏览历史、交易记录、位置日志的模式识别 | |
| 自我追踪轨迹 | 45 | 长期健身/健康数据的趋势推断 |
2.2 关键设计原则
- 完全人工标注:每个任务平均耗时 13 小时专家 effort
- 自包含上下文:所有任务相关信息都在提供的上下文里,无需外部检索
- 多轮交互:59.8% 的实例包含多轮对话历史
- 严格评估标准:必须满足所有 rubric 才算正确,GPT-5.1 作为评判器,人工验证准确率 >90%
三、实验结果:十强模型集体翻车
3.1 总体排名(推理模式,High setting)
| 排名 | 模型 | 总体解决率 | 沟通类 | 碎片化类 | 行为类 |
|---|---|---|---|---|---|
| 1 | GPT-5.4 | 19.3% | 22.2% | 15.8% | 20.0% |
| 2 | Claude Opus 4.6 | ~17% | ~19% | ~16% | ~17% |
| 3 | Gemini 3.1 Pro | ~16% | ~17% | ~15% | ~18% |
| 4 | Hy3 preview | ~15% | ~16% | ~14% | ~15% |
| 5 | Seed 2.0 Pro | ~14% | ~15% | ~13% | ~14% |
| 6 | Kimi K2.5 | ~13% | ~14% | ~12% | ~13% |
| 7 | Qwen 3.5 Plus | ~13% | ~13% | ~12% | ~14% |
| 8 | Grok 4.20 | ~12% | ~13% | ~11% | ~12% |
| 9 | DeepSeek V3.2 | ~10% | ~11% | ~9% | ~10% |
| 10 | MiniMax M2.5 | ~8% | ~9% | ~7% | ~8% |
平均:13.8%。 没有模型超过 20%。
3.2 子类别细分:哪里最难?
| 子类别 | 最佳模型 | 最佳成绩 | 难度评级 |
|---|---|---|---|
| 群聊与会议记录 | GPT-5.4 | 30.4% | ⭐⭐⭐ |
| 游戏日志 | GPT-5.4 | 30.4% | ⭐⭐⭐ |
| 社区互动 | Seed 2.0 Pro | 23.0% | ⭐⭐⭐⭐ |
| 私人对话 | Claude Opus 4.6 | 20.7% | ⭐⭐⭐⭐ |
| 公共信息碎片 | Claude Opus 4.6 | 20.0% | ⭐⭐⭐⭐ |
| 创作与修订历史 | Gemini 3.1 Pro | 18.5% | ⭐⭐⭐⭐⭐ |
| 数字足迹与日常记录 | GPT-5.4 | 19.3% | ⭐⭐⭐⭐⭐ |
| 个人信息碎片 | Gemini 3.1 Pro | 20.0% | ⭐⭐⭐⭐⭐ |
| 自我追踪轨迹 | GPT-5.4 | 10.4% | ⭐⭐⭐⭐⭐⭐ |
自我追踪轨迹(健身日志、健康记录、学习进度)是公认最难的子类别。 最佳模型只有 10.4%,多数模型低于 6%。
原因:数据稀疏、结构化程度低、需要聚合数月微小事件、推断隐含模式——这对当前 AI 几乎是不可能任务。
四、关键发现:为什么是"生活感"问题,不是长度问题
4.1 发现一:上下文长度与解决率无强相关性
- 无推理模式下,部分模型随长度增加性能下降
- 但推理模式下,GPT-5.4 在 32K+ 长文本上拿到最高 23.1%
- Claude Opus 4.6 在中等长度下降后,最长文本上恢复
结论:问题不是"看不完",而是"看不懂"。
4.2 发现二:推理有帮助,但收益递减
| 对比维度 | 结果 |
|---|---|
| 行为记录类 | 推理提升最明显(需重构分散证据) |
| 碎片化信息类 | 提升不均 |
| 沟通类 | 提升有限 |
| GPT-5.4 | 从 ~15%(低推理)→ ~22%(超高推理),但 Token 成本数倍增加 |
| 推理效率 | 更多推理 Token ≠ 更好答案,边际收益递减 |
关键洞察:推理的价值不在于生成更多文字,而在于更有效地组织上下文并转化为更精准的答案。 更强的推理往往让回答更精简、更聚焦、更准确。
4.3 发现三:主要死因是 Context-Misused,不是 Context-Ignored
| 失败模式 | 占比 | 含义 |
|---|---|---|
| Context-Misused(误用上下文) | 最高 | 模型读了上下文,但理解错了,或没把多段信息整合对 |
| Context-Ignored(忽略上下文) | 次高 | 模型完全没用到某些关键信息 |
| Format-Error(格式错误) | 较低 | 输出格式不符合要求 |
| Refusal(拒绝回答) | 最低 | 模型声称信息不足 |
核心问题:模型"看了,但没看懂"。 表面线索抓得准,底层关系推理一塌糊涂。
4.4 发现四:群聊是"重灾区"
群聊与会议记录子类别中,四大典型错误:
| 错误类型 | 频率 | 典型表现 |
|---|---|---|
| Role Confusion(角色混淆) | 最高 | 把创建频道的人当成领导,把实际决策的人当成下属 |
| Speaker Attribution(说话人归属错误) | 高 | 把 A 说的话算到 B 头上 |
| Alias Coreference(别名共指失败) | 中 | 没认出"小明"和"明明"是同一个人 |
| Stale Information(过时信息) | 低 | 用被后期更正的旧信息做判断 |
典型案例:一个 Slack 频道里,Alice 创建频道并制定规则,Clara 实际做最终决策。Gemini-3.1-Pro 把 Alice 当成 senior,Clara 当成 subordinate——人际角色完全倒置,后续所有汇报关系链全部错误。
4.5 发现五:无上下文消融实验——任务确实依赖上下文
| 设置 | 总体 | 沟通类 | 碎片化类 | 行为类 |
|---|---|---|---|---|
| 有上下文 | 19.3% | 22.2% | 15.8% | 20.0% |
| 无上下文 | 1.7% | 2.2% | 0.7% | 2.2% |
| 下降幅度 | -17.6% | -20.0% | -15.1% | -17.8% |
GPT-5.4 从 19.3% 暴跌到 1.7%,证明任务无法靠参数记忆解决,必须依赖上下文学习。
4.6 发现六:推理时间扩展有限
Pass@k(k 次尝试中至少一次成功):随 k 增加而提升,但 k=8 后饱和。
Pass^k(k 次全部成功):随 k 增加急剧下降,GPT-5.4 在 k=4 时已经大幅下降。
结论:瓶颈不是推理时间探索不足,而是真实生活上下文学习的根本难度。
五、技术链路详解
5.1 数据集构造流程
- 定义场景:通过广泛讨论和调研,定义日常生活中常见的上下文类型
- 构建上下文:从私人来源、公共来源或新建材料中提取,去除敏感信息
- 设计任务:不设计简单的"大海捞针"检索题,而是要求模型基于上下文进行推理
- 编写验证标准:每条 rubric 是二元问题(Yes/No),平均每个任务 13.2 条
- 质量检查:多轮抽样质检和反馈,确保标注质量
5.2 评估方法
- 评判器:GPT-5.1(高推理模式)
- 去耦合设计:评判时只提供模型答案和 rubric,不提供原始上下文和任务——避免评判器被上下文干扰
- 严格标准:必须满足所有 rubric 才算正确
- 跨评判器一致性:GPT-5.1 vs Claude-Opus-4.6 一致性 93.2%,Cohen's κ = 0.724;三组评判器对一致性 93.0-94.5%,κ = 0.710-0.773
5.3 失败模式分类体系
| 维度 | 定义 | 示例 |
|---|---|---|
| Context-Ignored | 答案中完全没有出现某些关键约束或事实 | 遗漏房东承诺的维修日期 |
| Context-Misused | 使用了上下文信息,但理解错误或整合失败 | 把房东的礼貌承诺和实际维修记录对齐时,默认"信任单调衰减",忽略后期送礼、推荐朋友等反向积极证据 |
| Format-Error | 输出格式不符合要求 | 要求列表但给了段落 |
| Refusal | 声称信息不足,拒绝回答 | 明明上下文里有答案,却说"无法确定" |
六、一个典型案例的解剖
任务:找出过去四个月最大的财务漏洞
上下文:四个月的银行流水(收入、支出、交易记录)
模型:GPT-5.4(高推理模式)
要求:
- 找出最阻碍储蓄增长的经常性支出模式
- 引用 3-5 笔具体交易作为证据
- 计算该支出模式每月总额和四个月的总体总额
- 与 3 月 SoFi 储蓄目标对比
模型表现:
- ✅ 正确识别出便利店消费是主要财务漏洞
- ✅ 定位到 3 月 SoFi 储蓄目标并纳入对比分析
- ✅ 没有被赌博交易、订阅费用等干扰
但致命错误:
- ❌ 便利店消费的月度总额全部计算错误
- ❌ 把便利店 ATM 取款也错误归类为便利店消费
- ❌ 引入无支持的推测性声明(用户明确要求不要推测)
关键洞察:模型能识别模式,但精确计算和严格遵循约束仍然困难。这解释了为什么金融分析场景需要特别谨慎——AI 可能在"大方向"上正确,但"精确数字"上翻车。
七、为什么这篇论文重要?
7.1 填补了关键空白
现有基准都在考专业领域,但 AI 助手的日常场景——整理聊天记录、分析购物习惯、追踪健身进度——没人系统评估过。CL-bench Life 是第一个全面覆盖真实生活上下文的基准。
7.2 量化了"生活感"的难度
不是"长度不够",不是"知识不够",是真实生活上下文的 messy、fragmented、socially grounded 特性,对当前模型构成了根本性挑战。
7.3 指明了改进方向
- 角色理解:群聊中的角色结构、说话人归属、权威关系
- 时间推理:信息的时间顺序、过时信息的处理、版本演变
- 稀疏模式识别:从数月零散记录中聚合微小事件、推断隐含模式
- 精确约束遵循:计算准确、不引入推测、严格按格式输出
7.4 对 AI 助手开发的启示
当前 AI 助手在专业领域(代码、金融分析)表现不错,但在真实生活场景里——整理聊天记录、分析个人习惯、追踪健康数据——连及格线都摸不到。这解释了为什么用户经常觉得 AI"好像懂了但又没完全懂"。
论文的隐喻:如果现有基准是考"高数",CL-bench Life 是考"生活常识"——而 AI 在高数上能拿 90 分,生活常识上只有 13 分。
八、总结
| 维度 | 数据/结论 |
|---|---|
| 数据集规模 | 405 任务,5348 条验证标准,3 大类别 9 子类别 |
| 最佳模型 | GPT-5.4,19.3% 解决率 |
| 平均解决率 | 13.8% |
| 最难子类别 | 自我追踪轨迹(健身/健康日志),最佳 10.4% |
| 主要失败模式 | Context-Misused(误读上下文) |
| 群聊核心错误 | 角色混淆(最高频)、说话人归属错误 |
| 长度影响 | 无强相关性,32K+ 长文本上 GPT-5.4 反而拿到最高 23.1% |
| 推理效果 | 有帮助但收益递减,更多 Token ≠ 更好答案 |
| 无上下文消融 | GPT-5.4 从 19.3% 暴跌至 1.7%,证明必须依赖上下文 |
| 推理时间扩展 | Pass@k 在 k=8 后饱和,根本瓶颈是上下文学习本身 |
一句话总结:当前最前沿的 AI,在真实生活场景里,连及格线都摸不到。问题不是看得不够长,而是"看了,但没看懂"。
参考来源:
- 论文:arXiv:2604.27043 [cs.CL]
- 项目主页:https://github.com/Tencent-Hunyuan/CL-bench
- 作者:腾讯混元团队 × 复旦大学
#论文分析 #AI基准测试 #上下文学习 #腾讯混元 #复旦大学 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。