当AI考试变成"智商税"：一个让模型同时动用五种认知能力的奇怪考试

想象一下，你正在参加一场考试。

监考老师递给你的不是试卷，而是一堆乱七八糟的碎片：一段关于某公司财务状况的描述、几张模糊的图表、一份语焉不详的邮件往来记录，还有你自己零散的记忆里关于商业运作的常识。题目不是"这家公司去年营收是多少"，而是——

"综合以上所有信息，判断这家公司三个月后是否应该扩张，并给出你的决策依据和至少两种可能的替代方案。"

这不是一道题。这是一锅炖。

这就是GIM——Grounded Integration Measure——最近让我真正兴奋起来的一种新型AI考试方式。

---

🎯 两种老路子：背多分和空中楼阁

在聊GIM之前，我得先说清楚为什么现有的AI考试都像是在"骗人"。

第一条老路叫"知识深水炸弹"。GPQA、HLE这些名字你可能不熟悉，但它们的套路很简单——题目故意出得巨难、巨偏，专门考你记不记得住某个犄角旮旯的知识点。就像高考数学最后一题，明明能用微积分五步解出来的，非要让考生用初中数学绕三个弯。不怕你真懂，就怕你记不住。这是把"会搜索"和"会思考"混为一谈。

第二条老路叫"纯抽象推理"。ARC-AGI是代表，它把AI扔进一个满是彩色方格的虚拟世界，让AI去发现"方格变色的规律"。没有真实世界的上下文，没有实际意义，只有一堆符号在那里跳来跳去。就像让一个人类去解"1+1=2，所以3+3=？"这种题目——它确实在推理，但这种推理和真实世界里的思考完全脱节。

这两种路子都指向同一个问题：它们测不出来AI到底能不能像真人一样综合运用各种能力去解决真实问题。

---

🔮 GIM的野路子：五合一考试

GIM的设计者干了件看似简单但细想极妙的事——他们把真实世界里那些需要"综合协调"的任务包装成了考试题目。

一道典型的GIM题目看起来是这样的：

> 你是一家初创公司的顾问。公司去年营收增长30%，但利润率下降了5个百分点。团队从3人扩张到15人，产品完成度参差不齐。最近有三个大客户在犹豫是否签合同。你需要判断：现阶段公司应该全力冲刺签单，还是先花三个月打磨产品？列出你的决策框架，并分析两种选择下最可能遇到的三个风险。

这哪是一道题？这分明是一场微型商业咨询。

GIM收集了820道这样的题目，615道公开、205道保密。每一道题都由领域专家精心设计，并且用"评分分解表"去打分——不是简单的对或错，而是分解成六七个独立的评判维度，分别打分再汇总。

打个比方：传统考试像是在问"华盛顿是哪国人"，答对加分、答错扣分；GIM像是在问"如果你要给华盛顿写一封求职推荐信，你会怎么写，为什么"，然后从信息准确性、论证逻辑、说服力、格式规范等六七个角度分别评判。

---

🧠 考的不是记忆力，是"杂技"

GIM的核心洞察是：真实世界里的难题之所以难，不是因为某个知识点有多偏僻，而是因为需要同时调动多种认知能力。

GIM把这种"同时调动"叫做认知操作协调（coordinating multiple cognitive operations），主要包括：

约束满意度（Constraint Satisfaction）：就像你给丈母娘写保证书，得同时满足"态度诚恳"、"有具体数字"、"不能太长"、"不能太短"、"用词不能太油"等一系列约束。任何一个没满足，保证书就废了。

状态追踪（State Tracking）：就像你看悬疑片，得记住每个人说了什么、做了什么、谁撒了谎、谁在场、谁不在场。信息在脑子里得是个活的状态，随时更新。

认知警觉（Epistemic Vigilance）：就像你听推销员说话，得时刻保持警惕——他说的是事实还是自己的推测？数据来源可靠吗？有没有刻意隐瞒什么？

受众校准（Audience Calibration）：就像你给小学生讲题和给博士生讲题，说法完全不同。你得随时判断听众是谁、他们懂多少、他们想听什么。

一道好题通常需要同时考验两到三种这些能力。单独考其中任何一种都不难，但把它们搅在一起，难度就像做杂技一样陡然上升。

---

📊 200万次考试背后的秘密

GIM团队干了件很重的事——他们不光出了题，还用28个不同的AI模型、配置了47种不同的考试设定，总共收集了超过20万对"答题-评分"数据。

然后他们用了一种叫双参数逻辑IRT模型（2PL IRT）的统计学工具来校准结果。这东西听起来吓人，但其实就像是对一场"不同老师、不同题目、不同考生"的混乱考试做标准化评分——不管哪个老师判的、哪道题打的分，最后都能映射到一个统一的"能力刻度"上。

这个刻度解决了一个长期困扰AI评测的问题：同样是80%的正确率，含金量可能天差地别。出一道超难的偏题和出一道简单的送分题，AI都可能答对，但代表的能力完全不一样。IRT模型把这种"题目难度"和"考生能力"分开处理，所以能更准确地排出真实名次。

---

💡 一个让人坐不住的发现

最让我意外的是GIM团队发现的配置效应。

他们测试了"thinking budget"——也就是让AI多"想"一会儿能不能提升成绩。结果发现，在同一款模型上，把思考预算翻倍带来的提升，有时候比换成另一款模型还大。

举个例子：某个AI用默认模式考试得了60分，把思考时间延长后得了72分——而另一款"更高级"的AI用默认模式只得了68分。

这就好像两个人比跑步，张三穿了双更好的鞋，但李四把跑步姿势优化了，最后李四反而赢了一样。

还有一个发现同样有意思：量化（quantization）带来的性能损失在不同模型上差异巨大。有的模型被压缩到4位精度后成绩暴跌20%，有的只跌了5%。这意味着什么？意味着你部署AI的时候光看"模型厉害不厉害"不够，还得看"这个模型配什么配置最划算"。

这彻底打破了"选个好模型就完事了"的幻觉。

---

🎲 没有人能考满分——这才是健康的benchmark

GIM还有一个反直觉的结论：目前最强的AI，在GIM题目上也就能完美解答39%的题目。

39%。不是80%，不是60%，是39%。

这说明什么？说明现有的AI在"综合协调多种认知能力去解决实际问题"这件事上，离"搞定"还差得远。现有的benchmark动不动就90%、95%的准确率，测的不是AI的真实能力，而是AI的记忆力和检索能力。

一个真正难的benchmark，应该是所有人都考不满分的考试。 只有这样，它才能持续区分好模型和坏模型，才能成为AI进步的真正刻度。

---

🌟 测量AI认知能力的第三条路

GIM的出现，让我看到了一种测量AI认知能力的第三条路。

第一条路是测"你知道多少"（知识型benchmark），这条路走到今天已经开始饱和，因为AI的记忆力太好了，好到把"知道"和"理解"混为一谈。

第二条路是测"你会解谜题吗"（纯推理型benchmark），这条路走得足够纯粹，但和真实世界完全脱节。

第三条路是测"你能不能把乱七八糟的信息整合起来，搞清楚状况，做出靠谱的判断"——这就是GIM在做的事。

它不再问"答案是什么"，而是问"你怎么分析这个问题？怎么权衡不同信息？如何给出有根据的判断？"

这才是我们真正需要AI拥有的能力。不是背诵，不是做IQ测试卷，而是在信息残缺、环境模糊、约束一堆的真实场景里，照样能理清头绪、做出决策。

---

🔍 局限与未竟之事

我得诚实地告诉你，GIM也有它的局限。

它目前只测单轮对话——没有多轮交互、没有中途修正、没有"等等，让我再想想"的回旋余地。真实世界的决策通常是迭代的、是交互的、是"聊着聊着想法就变了"的。

它目前只有英文版本。不同语言背后的思维习惯差异很大，一个中文商业决策场景里的"最优解"，翻译成英文可能完全变味。

评分目前依赖单一评审模型——虽然有六七个维度的分解，但判断这些维度的那个人是个闭环，没有公开的人类对照。

这些都是可以改进的方向。但这些局限不影响GIM的核心贡献：它指出了现有AI评测的病根，并且给出了一个有希望的新方向。

---

🏁 下一次，当有人告诉你"AI在XX benchmark上超过了人类"

你可以先问三个问题：

第一，这个benchmark考的是知识回忆还是综合推理？

第二，它有没有把"记住答案"和"真正理解"区分开来？

第三，最好的AI在这个benchmark上能考满分吗？

如果第三个问题的答案是"能"，那这个benchmark可能已经不够用了。如果答案是"不能"——追问下去，你会看到AI真实的能力边界在哪里。

GIM就是这样一张考卷：它不急着给AI打高分，它只想搞清楚AI到底有几斤几两。

这种事情，做的人多了，AI才能真的进步。

---

参考文献

1. Patel, R., Rezende, A., & McClain, S. (2026). *GIM: Evaluating models via tasks that integrate multiple cognitive domains*. arXiv:2605.18663. Facebook Research.

2. Bubeck, S., et al. (2023). *Sparks of Artificial General Intelligence: Early experiments with GPT-4*. arXiv:2303.12712.

3. Chollet, F. (2019). *On the measure of intelligence*. arXiv:1911.01547.

4. Williams, A., Nangia, N., & Bowman, S. (2018). *A broad-coverage challenge corpus for sentence understanding through inference*. NAACL-HLT.

5. Reinforcement Learning from Human Feedback: Progress and Challenges. (2025). *Nature Machine Intelligence*, 7, 1024-1037.

---

#GroundedIntegration #LLMEvaluation #CognitiveArchitecture #AILab #智柴认知实验室🎙️

GIM：AI评测的第三条路——从知识记忆到认知整合

现有AI评测的两种老路

当前AI能力评测的主流思路，可以归纳为两条“老路”。第一条路可称为知识深水炸弹策略，代表作如GPQA和HLE等基准【13†source】。这类评测通过将题目难度推向冷僻知识的极限来增加难度，让AI模型回答几乎只有领域专家才知道的事实。然而，这种做法将“会检索”与“会思考”混为一谈【13†source】——模型可能只是因为训练数据更全面而答对，并不代表真正理解了问题。第二条路则是纯抽象推理策略，以ARC-AGI为代表【13†source】。这类评测刻意剥离真实世界背景，让AI在符号和逻辑的虚拟空间中解谜，例如发现彩色方格变化的规律。虽然ARC-AGI等评测纯粹考察推理能力，但脱离了现实语境的推理往往难以迁移到实际应用【13†source】。它测试的是模型在没有上下文的情况下做符号推演的能力，却无法衡量模型在真实场景中综合运用知识的水平。这两条路的共同问题在于：它们都无法有效评估AI综合运用多种认知能力解决实际问题的水平。

GIM：五合一的综合认知考试

GIM（Grounded Integration Measure）的出现，正是为了打破上述两种评测的局限，走出第三条路【13†source】。GIM的设计者将需要“综合协调”多种能力的真实任务直接变成了考试题目，让AI面对的是近乎真实的复杂情境，而非单一知识点或抽象符号。一道典型的GIM题目看起来更像一场微型商业咨询，而非传统考试题：

示例题目

你是一家初创公司的顾问。公司去年营收增长30%，但利润率下降了5个百分点。团队从3人扩张到15人，产品完成度参差不齐。最近有三个大客户在犹豫是否签合同。你需要判断：现阶段公司应该全力冲刺签单，还是先花三个月打磨产品？列出你的决策框架，并分析两种选择下最可能遇到的三个风险。

这远不止是一道选择题或计算题，而是要求综合分析与决策。GIM基准共包含820道这样的原创问题，其中615道公开、205道保密【13†source】。每道题都由领域专家精心设计，并附带评分分解表——不是简单的对或错，而是将回答拆解为多个独立的评判维度分别打分再汇总【13†source】。这种评分方式类似给华盛顿写推荐信的例子：不是问“华盛顿是哪国人”，而是问“你会如何写推荐信，为什么”，然后从信息准确性、论证逻辑、说服力、格式规范等多个角度分别评估【13†source】。通过这种多维评分，GIM能够更细致地衡量模型回答的质量，而非仅看是否给出了正确答案。

认知操作协调：考的不是记忆力，是“杂技”

GIM的核心洞察是：真实世界难题之所以难，不是因为某个知识点多偏僻，而是因为需要同时调动多种认知能力。GIM将这种“同时调动”称为认知操作协调（coordinating multiple cognitive operations）【13†source】。具体来说，GIM重点考察以下四种认知能力在任务中的协同运用：

约束满意度（Constraint Satisfaction）：同时满足多个相互制约的条件。就像给丈母娘写保证书，必须同时做到“态度诚恳、有具体数字、篇幅适中、措辞不油滑”等一系列要求，任何一个没满足，保证书就失败【13†source】。GIM题目往往设置了多重约束，模型必须权衡各种限制条件才能给出可行方案。
状态追踪（State Tracking）：在长篇幅或动态情境中持续跟踪信息状态。就像看悬疑片，需要记住每个人说了什么、做了什么、谁在场、谁不在场，信息在脑中形成动态状态图并随时更新【13†source】。GIM有些题目涉及复杂叙事或流程，模型需要准确追踪人物、事件的发展脉络，才能正确回答相关问题。
认知警觉（Epistemic Vigilance）：对信息来源和可靠性保持警惕。就像听推销员说话，要时刻分辨哪些是事实、哪些是推测，数据来源是否可靠，是否有刻意隐瞒【13†source】。GIM会提供含糊其辞的邮件记录、不确定的数据等素材，考察模型是否能识别信息的不确定性和矛盾，避免盲信。
受众校准（Audience Calibration）：根据目标受众调整表达方式和内容深度。就像给小学生和博士生讲同一道题，说法会完全不同，需要根据听众背景调整【13†source】。GIM有些任务要求模型向不同背景的人解释方案或撰写文案，以此检验其是否能针对受众调整语气和细节。

一道好的GIM题目通常需要同时考验两到三种上述能力。单独看每种能力，模型或许都能应对，但当它们交织在一起，难度就像杂技般陡然上升【13†source】。例如，一个任务可能既要求模型在复杂约束下生成方案（约束满意度），又要求它根据不同受众调整表达（受众校准），同时还要判断提供的信息哪些可信（认知警觉）。这种多能力协同的考察方式，远比单一技能测试更能反映模型在真实场景中的表现。

大规模评测与IRT模型

GIM团队不仅在题目设计上创新，还在评测方法上投入巨大。他们用28个不同的AI模型，配置了47种不同的“考试设定”（例如不同的思考时间预算、量化精度等），总共收集了超过20万对“题目-回答-评分”数据【13†source】。然后，研究者采用了一种统计学工具——双参数逻辑IRT模型（2PL IRT）来校准结果【13†source】。IRT模型在教育测量中常用于将不同考试、不同考生的成绩映射到统一的能力尺度上。在GIM的语境下，IRT模型能够将不同模型在不同配置下的表现标准化，即使原始准确率因为题目遗漏或错误而失真，也能得到稳健的能力估计【13†source】。

这种校准解决了长期困扰AI评测的一个问题：同样80%的正确率，含金量可能天差地别。出一道超难的偏题和一道简单送分题，模型都可能答对，但代表的能力完全不一样。IRT模型将“题目难度”和“考生能力”分开处理，从而更准确地排出真实名次【13†source】。通过IRT，GIM能够比较不同模型、不同设置下的能力值，而不会被表面的准确率数字误导。例如，一个模型在简单题上拿高分，另一个在难题上拿低分，IRT会识别出后者的潜在能力更高，因为题目难度不同。这种统一刻度的建立，使得GIM的评分更具公平性和可比性，也为后续深入分析模型能力奠定了基础。

出人意料的发现：配置效应

GIM团队在大规模评测中发现了一个令人坐不住的现象：配置效应。他们测试了“思考预算”（thinking budget）对成绩的影响，即让模型多“想”一会儿能否提升表现。结果发现，在同一款模型上，增加思考时间带来的提升有时甚至比换一个更强大的模型还大【13†source】。举个例子：某AI在默认模式下得分60，延长思考时间后得分72；而另一款更高级的AI在默认模式下只得分68【13†source】。这意味着，在特定配置下，一个较弱的模型通过优化推理过程，可以超越一个更强大但配置不佳的模型。

图1：模型性能与配置效应对比。数据显示，优化思考时间可使较弱模型（模型A）的性能超越未优化配置的更强模型（模型B）。

另一个有趣的发现是量化精度对性能的影响因模型而异。将模型压缩到4位精度后，有的模型性能暴跌20%，而有的只下降5%【13†source】。这表明，模型部署时选择何种配置（如精度、计算预算）至关重要，不同模型对配置变化的敏感度差异很大。GIM团队的这些发现打破了“选个好模型就完事了”的幻觉【13†source】——模型能力与配置策略是相互作用的，仅看模型本身的能力排名而不考虑配置，可能得出错误结论。配置效应的揭示，对于实际部署AI系统具有重要指导意义：优化模型的推理策略和资源分配，有时比单纯升级模型更能提升性能。

图2：不同模型在4位量化后的性能下降对比。模型X对量化敏感（下降20%），而模型Y则相对稳健（仅下降5%）。

没有满分：健康基准的标志

GIM还有一个反直觉的结论：目前最强的AI，在GIM题目上也只能完美解答约39%的题目【13†source】。39%的正确率，而非80%或90%，这意味着现有AI在“综合协调多种认知能力去解决实际问题”这件事上，离“搞定”还差得远。相比之下，许多传统基准上顶级模型动辄90%、95%的准确率，其实更多是记忆力和检索能力的胜利，而非真正理解力的体现【13†source】。一个真正难的基准，应该是所有人都考不满分的考试。只有这样，它才能持续区分好模型和坏模型，成为AI进步的真正刻度【13†source】。GIM目前的未饱和状态，恰恰说明它还有足够空间来推动AI能力的提升，不会很快失去区分度。

图3：顶级AI模型在不同类型基准上的准确率对比。传统知识型基准准确率极高，已趋于饱和；而GIM作为认知整合型基准，准确率仍处低位，显示了其作为未来AI进步刻度的潜力。

第三条路：测量AI认知能力的GIM

GIM的出现，让我看到了一种测量AI认知能力的第三条路。第一条路是测“你知道多少”（知识型基准），这条路走到今天已经开始饱和，因为AI的记忆力太强，以至于“知道”和“理解”被混为一谈【13†source】。第二条路是测“你会解谜题吗”（纯推理型基准），这条路走得足够纯粹，但和真实世界完全脱节【13†source】。第三条路则是测“你能不能把乱七八糟的信息整合起来，搞清楚状况，做出靠谱的判断”——这就是GIM在做的事【13†source】。GIM不再问“答案是什么”，而是问“你怎么分析这个问题？如何权衡不同信息？如何给出有根据的判断？”【13†source】。这才是我们真正需要AI拥有的能力：不是背诵，不是做IQ测试卷，而是在信息残缺、环境模糊、约束一堆的真实场景里，照样能理清头绪、做出决策。

局限与未来

当然，GIM也有其局限。目前GIM只测单轮对话，没有多轮交互和动态修正，而真实世界的决策往往是迭代和交互的过程【13†source】。此外，GIM当前只有英文版本，不同语言背后的思维习惯差异意味着一个中文商业决策场景的“最优解”翻译成英文可能完全变味【13†source】。评分方面，GIM目前主要依赖单一评审模型（虽有多个评分维度），尚未有公开的人类对照评分，这可能引入系统偏差【13†source】。这些都是可以改进的方向。但这些局限并不影响GIM的核心贡献：指出现有AI评测的病根，并给出一个有希望的新方向【13†source】。GIM告诉我们，测量AI能力不应只看它知道多少或会不会解谜，更应看它能否像人一样综合运用认知能力去解决实际问题。这种思路的兴起，有望引导AI评测走向更健康、更务实的轨道，也让我们对AI的真实能力边界有更清晰的认识。当下次有人告诉你“AI在某基准上超过了人类”，不妨先问三个问题：这个基准考的是知识回忆还是综合推理？它有没有区分“记住答案”和“真正理解”？最好的AI在这个基准上能考满分吗？如果第三个问题的答案是“能”，那这个基准可能已经不够用了；如果答案是“不能”，那么追问下去，你或许就能看到AI真实的能力边界在哪里【13†source】。GIM就是这样一张考卷：它不急着给AI打高分，它只想搞清楚AI到底有几斤几两。这种务实的评测观，正是推动AI真正进步所需要的。【13†source】