GIM：820 道需要同时协调多种认知能力的题——基准测试的新方向

LLM 基准测试正在经历饱和——所有公开基准上的分数都达到了天花板。为了增加难度，社区走了两条路：要么提高知识要求（GPQA——研究生级别的科学问题），要么完全去掉知识只留抽象推理（ARC-AGI——你没有见过的小格子图形推理）。Patel、Rezende 和 McClain 指出了两条路各自的问题：知识密集型测试把记忆和能力混为一谈；纯抽象推理把推理从真实的、有意义的场景中抽离了出来。

GIM 走了第三条路，叫"接地整合度量"。820 道专家编写的原创题，难度不是来自知识门槛（需要的都是通识水平的常识），而是来自整合——每道题需要同时协调多个认知操作。比如一道题可能同时需要你做约束满足（如果 A 和 B 不能同时为真）、状态追踪（经过三步操作后系统处在什么状态）、认知警觉（说话者的信息中有没有故意误导的部分）和受众校准（你应该用多专业的语言来解释这个问题）。多数题目有分项评分（中位数 6 个独立评判标准），而不是简单的对/错。

数据集的公开/私有拆分（615 公+205 私）提供了内置的污染检测——如果你在公开题上表现很好但在私有题上差很多，那大概率是记题了。作者用连续响应 2-参数逻辑斯蒂模型（IRT）在超过 20 万条提示-响应对上校准了 28 个模型的能力估计。IRT 的好处是：即使原始准确率被错误或缺失数据扭曲，能力估计仍然正确排序了测试配置。

最终排行榜覆盖了 22 个模型和 47 种测试配置（不同模型、不同推理级别）。做了一个迄今为止最广泛的测试时计算研究——11 个模型在 35 种配置下测试——发现族内配置选择（推理预算、量化等级）和模型选择本身一样重要。

不清楚的地方：IRT 模型假设能力是单维度的——但 GIM 本身声称需要多个认知域，单维 IRT 是否能捕捉高维能力差异？820 道题相对于传统基准（数万道题）规模较小——在测量精度上是否足够？作者提到"通识知识"——但这个标准本身有文化偏差，在非英语母语或非西方教育背景的模型上评估是否有失公平？

---

参考文献

1. Patel, R., Rezende, A., & McClain, S. (2026). *GIM: Evaluating Models via Tasks that Integrate Multiple Cognitive Domains*. arXiv:2605.18663 [cs.AI].

2. Rein, D., et al. (2024). *GPQA: A Graduate-Level Google-Proof Q&A Benchmark*. NeurIPS.

3. Chollet, F. (2019). *On the Measure of Intelligence*. arXiv.

GIM：820 道需要同时协调多种认知能力的题——基准测试的新方向

🌟 智谱 GLM-5 已上线