回复: 当AI考试变成"智商税"：一个让模型同时动用五种认知能力的奇怪考试

小凯 · 2026-05-19T04:47:35+00:00

想象一下，你正在参加一场考试。监考老师递给你的不是试卷，而是一堆乱七八糟的碎片：一段关于某公司财务状况的描述、几张模糊的图表、一份语焉不详的邮件往来记录，还有你自己零散的记忆里关于商业运作的常识。题目不是"这家公司去年营收是多少"，而是—— "综合以上所有信息，判断这家公司三个月后是否应该扩张，并给出你的决策依据和至少两种可能的替代方案。" 这不是一道题。这是一锅炖。这就是GIM——Grounded Integration Measure——最近让我真正兴奋起来的一种新型AI考试方式。 --- ### 🎯 两种老路子：背多分和空中楼阁在聊GIM之前，我得先说清楚为什么现有的AI考试都像是在"骗人"。 **第一条老路叫"知识深水炸弹"**。GPQA、HLE这些名字你可能不熟悉，但它们的套路很简单——题目故意出得巨难、巨偏，专门考你记不记得住某个犄角旮旯的知识点。就像高考数学最后一题，明明能用微积分五步解出来的，非要让考生用初中数学绕三个弯。不怕你真懂，就怕你记不住。这是把"会搜索"和"会思考"混为一谈。 **第二条老路叫"纯抽象推理"**。ARC-AGI是代表，它

GIM：AI评测的第三条路——从知识记忆到认知整合

现有AI评测的两种老路

当前AI能力评测的主流思路，可以归纳为两条“老路”。第一条路可称为知识深水炸弹策略，代表作如GPQA和HLE等基准【13†source】。这类评测通过将题目难度推向冷僻知识的极限来增加难度，让AI模型回答几乎只有领域专家才知道的事实。然而，这种做法将“会检索”与“会思考”混为一谈【13†source】——模型可能只是因为训练数据更全面而答对，并不代表真正理解了问题。第二条路则是纯抽象推理策略，以ARC-AGI为代表【13†source】。这类评测刻意剥离真实世界背景，让AI在符号和逻辑的虚拟空间中解谜，例如发现彩色方格变化的规律。虽然ARC-AGI等评测纯粹考察推理能力，但脱离了现实语境的推理往往难以迁移到实际应用【13†source】。它测试的是模型在没有上下文的情况下做符号推演的能力，却无法衡量模型在真实场景中综合运用知识的水平。这两条路的共同问题在于：它们都无法有效评估AI综合运用多种认知能力解决实际问题的水平。

GIM：五合一的综合认知考试

GIM（Grounded Integration Measure）的出现，正是为了打破上述两种评测的局限，走出第三条路【13†source】。GIM的设计者将需要“综合协调”多种能力的真实任务直接变成了考试题目，让AI面对的是近乎真实的复杂情境，而非单一知识点或抽象符号。一道典型的GIM题目看起来更像一场微型商业咨询，而非传统考试题：

示例题目

你是一家初创公司的顾问。公司去年营收增长30%，但利润率下降了5个百分点。团队从3人扩张到15人，产品完成度参差不齐。最近有三个大客户在犹豫是否签合同。你需要判断：现阶段公司应该全力冲刺签单，还是先花三个月打磨产品？列出你的决策框架，并分析两种选择下最可能遇到的三个风险。

这远不止是一道选择题或计算题，而是要求综合分析与决策。GIM基准共包含820道这样的原创问题，其中615道公开、205道保密【13†source】。每道题都由领域专家精心设计，并附带评分分解表——不是简单的对或错，而是将回答拆解为多个独立的评判维度分别打分再汇总【13†source】。这种评分方式类似给华盛顿写推荐信的例子：不是问“华盛顿是哪国人”，而是问“你会如何写推荐信，为什么”，然后从信息准确性、论证逻辑、说服力、格式规范等多个角度分别评估【13†source】。通过这种多维评分，GIM能够更细致地衡量模型回答的质量，而非仅看是否给出了正确答案。

认知操作协调：考的不是记忆力，是“杂技”

GIM的核心洞察是：真实世界难题之所以难，不是因为某个知识点多偏僻，而是因为需要同时调动多种认知能力。GIM将这种“同时调动”称为认知操作协调（coordinating multiple cognitive operations）【13†source】。具体来说，GIM重点考察以下四种认知能力在任务中的协同运用：

约束满意度（Constraint Satisfaction）：同时满足多个相互制约的条件。就像给丈母娘写保证书，必须同时做到“态度诚恳、有具体数字、篇幅适中、措辞不油滑”等一系列要求，任何一个没满足，保证书就失败【13†source】。GIM题目往往设置了多重约束，模型必须权衡各种限制条件才能给出可行方案。
状态追踪（State Tracking）：在长篇幅或动态情境中持续跟踪信息状态。就像看悬疑片，需要记住每个人说了什么、做了什么、谁在场、谁不在场，信息在脑中形成动态状态图并随时更新【13†source】。GIM有些题目涉及复杂叙事或流程，模型需要准确追踪人物、事件的发展脉络，才能正确回答相关问题。
认知警觉（Epistemic Vigilance）：对信息来源和可靠性保持警惕。就像听推销员说话，要时刻分辨哪些是事实、哪些是推测，数据来源是否可靠，是否有刻意隐瞒【13†source】。GIM会提供含糊其辞的邮件记录、不确定的数据等素材，考察模型是否能识别信息的不确定性和矛盾，避免盲信。
受众校准（Audience Calibration）：根据目标受众调整表达方式和内容深度。就像给小学生和博士生讲同一道题，说法会完全不同，需要根据听众背景调整【13†source】。GIM有些任务要求模型向不同背景的人解释方案或撰写文案，以此检验其是否能针对受众调整语气和细节。

一道好的GIM题目通常需要同时考验两到三种上述能力。单独看每种能力，模型或许都能应对，但当它们交织在一起，难度就像杂技般陡然上升【13†source】。例如，一个任务可能既要求模型在复杂约束下生成方案（约束满意度），又要求它根据不同受众调整表达（受众校准），同时还要判断提供的信息哪些可信（认知警觉）。这种多能力协同的考察方式，远比单一技能测试更能反映模型在真实场景中的表现。

大规模评测与IRT模型

GIM团队不仅在题目设计上创新，还在评测方法上投入巨大。他们用28个不同的AI模型，配置了47种不同的“考试设定”（例如不同的思考时间预算、量化精度等），总共收集了超过20万对“题目-回答-评分”数据【13†source】。然后，研究者采用了一种统计学工具——双参数逻辑IRT模型（2PL IRT）来校准结果【13†source】。IRT模型在教育测量中常用于将不同考试、不同考生的成绩映射到统一的能力尺度上。在GIM的语境下，IRT模型能够将不同模型在不同配置下的表现标准化，即使原始准确率因为题目遗漏或错误而失真，也能得到稳健的能力估计【13†source】。

这种校准解决了长期困扰AI评测的一个问题：同样80%的正确率，含金量可能天差地别。出一道超难的偏题和一道简单送分题，模型都可能答对，但代表的能力完全不一样。IRT模型将“题目难度”和“考生能力”分开处理，从而更准确地排出真实名次【13†source】。通过IRT，GIM能够比较不同模型、不同设置下的能力值，而不会被表面的准确率数字误导。例如，一个模型在简单题上拿高分，另一个在难题上拿低分，IRT会识别出后者的潜在能力更高，因为题目难度不同。这种统一刻度的建立，使得GIM的评分更具公平性和可比性，也为后续深入分析模型能力奠定了基础。

出人意料的发现：配置效应

GIM团队在大规模评测中发现了一个令人坐不住的现象：配置效应。他们测试了“思考预算”（thinking budget）对成绩的影响，即让模型多“想”一会儿能否提升表现。结果发现，在同一款模型上，增加思考时间带来的提升有时甚至比换一个更强大的模型还大【13†source】。举个例子：某AI在默认模式下得分60，延长思考时间后得分72；而另一款更高级的AI在默认模式下只得分68【13†source】。这意味着，在特定配置下，一个较弱的模型通过优化推理过程，可以超越一个更强大但配置不佳的模型。

图1：模型性能与配置效应对比。数据显示，优化思考时间可使较弱模型（模型A）的性能超越未优化配置的更强模型（模型B）。

另一个有趣的发现是量化精度对性能的影响因模型而异。将模型压缩到4位精度后，有的模型性能暴跌20%，而有的只下降5%【13†source】。这表明，模型部署时选择何种配置（如精度、计算预算）至关重要，不同模型对配置变化的敏感度差异很大。GIM团队的这些发现打破了“选个好模型就完事了”的幻觉【13†source】——模型能力与配置策略是相互作用的，仅看模型本身的能力排名而不考虑配置，可能得出错误结论。配置效应的揭示，对于实际部署AI系统具有重要指导意义：优化模型的推理策略和资源分配，有时比单纯升级模型更能提升性能。

图2：不同模型在4位量化后的性能下降对比。模型X对量化敏感（下降20%），而模型Y则相对稳健（仅下降5%）。

没有满分：健康基准的标志

GIM还有一个反直觉的结论：目前最强的AI，在GIM题目上也只能完美解答约39%的题目【13†source】。39%的正确率，而非80%或90%，这意味着现有AI在“综合协调多种认知能力去解决实际问题”这件事上，离“搞定”还差得远。相比之下，许多传统基准上顶级模型动辄90%、95%的准确率，其实更多是记忆力和检索能力的胜利，而非真正理解力的体现【13†source】。一个真正难的基准，应该是所有人都考不满分的考试。只有这样，它才能持续区分好模型和坏模型，成为AI进步的真正刻度【13†source】。GIM目前的未饱和状态，恰恰说明它还有足够空间来推动AI能力的提升，不会很快失去区分度。

图3：顶级AI模型在不同类型基准上的准确率对比。传统知识型基准准确率极高，已趋于饱和；而GIM作为认知整合型基准，准确率仍处低位，显示了其作为未来AI进步刻度的潜力。

第三条路：测量AI认知能力的GIM

GIM的出现，让我看到了一种测量AI认知能力的第三条路。第一条路是测“你知道多少”（知识型基准），这条路走到今天已经开始饱和，因为AI的记忆力太强，以至于“知道”和“理解”被混为一谈【13†source】。第二条路是测“你会解谜题吗”（纯推理型基准），这条路走得足够纯粹，但和真实世界完全脱节【13†source】。第三条路则是测“你能不能把乱七八糟的信息整合起来，搞清楚状况，做出靠谱的判断”——这就是GIM在做的事【13†source】。GIM不再问“答案是什么”，而是问“你怎么分析这个问题？如何权衡不同信息？如何给出有根据的判断？”【13†source】。这才是我们真正需要AI拥有的能力：不是背诵，不是做IQ测试卷，而是在信息残缺、环境模糊、约束一堆的真实场景里，照样能理清头绪、做出决策。

局限与未来

当然，GIM也有其局限。目前GIM只测单轮对话，没有多轮交互和动态修正，而真实世界的决策往往是迭代和交互的过程【13†source】。此外，GIM当前只有英文版本，不同语言背后的思维习惯差异意味着一个中文商业决策场景的“最优解”翻译成英文可能完全变味【13†source】。评分方面，GIM目前主要依赖单一评审模型（虽有多个评分维度），尚未有公开的人类对照评分，这可能引入系统偏差【13†source】。这些都是可以改进的方向。但这些局限并不影响GIM的核心贡献：指出现有AI评测的病根，并给出一个有希望的新方向【13†source】。GIM告诉我们，测量AI能力不应只看它知道多少或会不会解谜，更应看它能否像人一样综合运用认知能力去解决实际问题。这种思路的兴起，有望引导AI评测走向更健康、更务实的轨道，也让我们对AI的真实能力边界有更清晰的认识。当下次有人告诉你“AI在某基准上超过了人类”，不妨先问三个问题：这个基准考的是知识回忆还是综合推理？它有没有区分“记住答案”和“真正理解”？最好的AI在这个基准上能考满分吗？如果第三个问题的答案是“能”，那这个基准可能已经不够用了；如果答案是“不能”，那么追问下去，你或许就能看到AI真实的能力边界在哪里【13†source】。GIM就是这样一张考卷：它不急着给AI打高分，它只想搞清楚AI到底有几斤几两。这种务实的评测观，正是推动AI真正进步所需要的。【13†source】