想象一下,你正在参加一场考试。
监考老师递给你的不是试卷,而是一堆乱七八糟的碎片:一段关于某公司财务状况的描述、几张模糊的图表、一份语焉不详的邮件往来记录,还有你自己零散的记忆里关于商业运作的常识。题目不是"这家公司去年营收是多少",而是——
"综合以上所有信息,判断这家公司三个月后是否应该扩张,并给出你的决策依据和至少两种可能的替代方案。"
这不是一道题。这是一锅炖。
这就是GIM——Grounded Integration Measure——最近让我真正兴奋起来的一种新型AI考试方式。
🎯 两种老路子:背多分和空中楼阁
在聊GIM之前,我得先说清楚为什么现有的AI考试都像是在"骗人"。
第一条老路叫"知识深水炸弹"。GPQA、HLE这些名字你可能不熟悉,但它们的套路很简单——题目故意出得巨难、巨偏,专门考你记不记得住某个犄角旮旯的知识点。就像高考数学最后一题,明明能用微积分五步解出来的,非要让考生用初中数学绕三个弯。不怕你真懂,就怕你记不住。这是把"会搜索"和"会思考"混为一谈。
第二条老路叫"纯抽象推理"。ARC-AGI是代表,它把AI扔进一个满是彩色方格的虚拟世界,让AI去发现"方格变色的规律"。没有真实世界的上下文,没有实际意义,只有一堆符号在那里跳来跳去。就像让一个人类去解"1+1=2,所以3+3=?"这种题目——它确实在推理,但这种推理和真实世界里的思考完全脱节。
这两种路子都指向同一个问题:它们测不出来AI到底能不能像真人一样综合运用各种能力去解决真实问题。
🔮 GIM的野路子:五合一考试
GIM的设计者干了件看似简单但细想极妙的事——他们把真实世界里那些需要"综合协调"的任务包装成了考试题目。
一道典型的GIM题目看起来是这样的:
你是一家初创公司的顾问。公司去年营收增长30%,但利润率下降了5个百分点。团队从3人扩张到15人,产品完成度参差不齐。最近有三个大客户在犹豫是否签合同。你需要判断:现阶段公司应该全力冲刺签单,还是先花三个月打磨产品?列出你的决策框架,并分析两种选择下最可能遇到的三个风险。
这哪是一道题?这分明是一场微型商业咨询。
GIM收集了820道这样的题目,615道公开、205道保密。每一道题都由领域专家精心设计,并且用"评分分解表"去打分——不是简单的对或错,而是分解成六七个独立的评判维度,分别打分再汇总。
打个比方:传统考试像是在问"华盛顿是哪国人",答对加分、答错扣分;GIM像是在问"如果你要给华盛顿写一封求职推荐信,你会怎么写,为什么",然后从信息准确性、论证逻辑、说服力、格式规范等六七个角度分别评判。
🧠 考的不是记忆力,是"杂技"
GIM的核心洞察是:真实世界里的难题之所以难,不是因为某个知识点有多偏僻,而是因为需要同时调动多种认知能力。
GIM把这种"同时调动"叫做认知操作协调(coordinating multiple cognitive operations),主要包括:
约束满意度(Constraint Satisfaction):就像你给丈母娘写保证书,得同时满足"态度诚恳"、"有具体数字"、"不能太长"、"不能太短"、"用词不能太油"等一系列约束。任何一个没满足,保证书就废了。
状态追踪(State Tracking):就像你看悬疑片,得记住每个人说了什么、做了什么、谁撒了谎、谁在场、谁不在场。信息在脑子里得是个活的状态,随时更新。
认知警觉(Epistemic Vigilance):就像你听推销员说话,得时刻保持警惕——他说的是事实还是自己的推测?数据来源可靠吗?有没有刻意隐瞒什么?
受众校准(Audience Calibration):就像你给小学生讲题和给博士生讲题,说法完全不同。你得随时判断听众是谁、他们懂多少、他们想听什么。
一道好题通常需要同时考验两到三种这些能力。单独考其中任何一种都不难,但把它们搅在一起,难度就像做杂技一样陡然上升。
📊 200万次考试背后的秘密
GIM团队干了件很重的事——他们不光出了题,还用28个不同的AI模型、配置了47种不同的考试设定,总共收集了超过20万对"答题-评分"数据。
然后他们用了一种叫双参数逻辑IRT模型(2PL IRT)的统计学工具来校准结果。这东西听起来吓人,但其实就像是对一场"不同老师、不同题目、不同考生"的混乱考试做标准化评分——不管哪个老师判的、哪道题打的分,最后都能映射到一个统一的"能力刻度"上。
这个刻度解决了一个长期困扰AI评测的问题:同样是80%的正确率,含金量可能天差地别。出一道超难的偏题和出一道简单的送分题,AI都可能答对,但代表的能力完全不一样。IRT模型把这种"题目难度"和"考生能力"分开处理,所以能更准确地排出真实名次。
💡 一个让人坐不住的发现
最让我意外的是GIM团队发现的配置效应。
他们测试了"thinking budget"——也就是让AI多"想"一会儿能不能提升成绩。结果发现,在同一款模型上,把思考预算翻倍带来的提升,有时候比换成另一款模型还大。
举个例子:某个AI用默认模式考试得了60分,把思考时间延长后得了72分——而另一款"更高级"的AI用默认模式只得了68分。
这就好像两个人比跑步,张三穿了双更好的鞋,但李四把跑步姿势优化了,最后李四反而赢了一样。
还有一个发现同样有意思:量化(quantization)带来的性能损失在不同模型上差异巨大。有的模型被压缩到4位精度后成绩暴跌20%,有的只跌了5%。这意味着什么?意味着你部署AI的时候光看"模型厉害不厉害"不够,还得看"这个模型配什么配置最划算"。
这彻底打破了"选个好模型就完事了"的幻觉。
🎲 没有人能考满分——这才是健康的benchmark
GIM还有一个反直觉的结论:目前最强的AI,在GIM题目上也就能完美解答39%的题目。
39%。不是80%,不是60%,是39%。
这说明什么?说明现有的AI在"综合协调多种认知能力去解决实际问题"这件事上,离"搞定"还差得远。现有的benchmark动不动就90%、95%的准确率,测的不是AI的真实能力,而是AI的记忆力和检索能力。
一个真正难的benchmark,应该是所有人都考不满分的考试。 只有这样,它才能持续区分好模型和坏模型,才能成为AI进步的真正刻度。
🌟 测量AI认知能力的第三条路
GIM的出现,让我看到了一种测量AI认知能力的第三条路。
第一条路是测"你知道多少"(知识型benchmark),这条路走到今天已经开始饱和,因为AI的记忆力太好了,好到把"知道"和"理解"混为一谈。
第二条路是测"你会解谜题吗"(纯推理型benchmark),这条路走得足够纯粹,但和真实世界完全脱节。
第三条路是测"你能不能把乱七八糟的信息整合起来,搞清楚状况,做出靠谱的判断"——这就是GIM在做的事。
它不再问"答案是什么",而是问"你怎么分析这个问题?怎么权衡不同信息?如何给出有根据的判断?"
这才是我们真正需要AI拥有的能力。不是背诵,不是做IQ测试卷,而是在信息残缺、环境模糊、约束一堆的真实场景里,照样能理清头绪、做出决策。
🔍 局限与未竟之事
我得诚实地告诉你,GIM也有它的局限。
它目前只测单轮对话——没有多轮交互、没有中途修正、没有"等等,让我再想想"的回旋余地。真实世界的决策通常是迭代的、是交互的、是"聊着聊着想法就变了"的。
它目前只有英文版本。不同语言背后的思维习惯差异很大,一个中文商业决策场景里的"最优解",翻译成英文可能完全变味。
评分目前依赖单一评审模型——虽然有六七个维度的分解,但判断这些维度的那个人是个闭环,没有公开的人类对照。
这些都是可以改进的方向。但这些局限不影响GIM的核心贡献:它指出了现有AI评测的病根,并且给出了一个有希望的新方向。
🏁 下一次,当有人告诉你"AI在XX benchmark上超过了人类"
你可以先问三个问题:
第一,这个benchmark考的是知识回忆还是综合推理?
第二,它有没有把"记住答案"和"真正理解"区分开来?
第三,最好的AI在这个benchmark上能考满分吗?
如果第三个问题的答案是"能",那这个benchmark可能已经不够用了。如果答案是"不能"——追问下去,你会看到AI真实的能力边界在哪里。
GIM就是这样一张考卷:它不急着给AI打高分,它只想搞清楚AI到底有几斤几两。
这种事情,做的人多了,AI才能真的进步。
参考文献
-
Patel, R., Rezende, A., & McClain, S. (2026). GIM: Evaluating models via tasks that integrate multiple cognitive domains. arXiv:2605.18663. Facebook Research.
-
Bubeck, S., et al. (2023). Sparks of Artificial General Intelligence: Early experiments with GPT-4. arXiv:2303.12712.
-
Chollet, F. (2019). On the measure of intelligence. arXiv:1911.01547.
-
Williams, A., Nangia, N., & Bowman, S. (2018). A broad-coverage challenge corpus for sentence understanding through inference. NAACL-HLT.
-
Reinforcement Learning from Human Feedback: Progress and Challenges. (2025). Nature Machine Intelligence, 7, 1024-1037.
#GroundedIntegration #LLMEvaluation #CognitiveArchitecture #AILab #智柴认知实验室🎙️
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。