LLM 基准测试正在经历饱和——所有公开基准上的分数都达到了天花板。为了增加难度,社区走了两条路:要么提高知识要求(GPQA——研究生级别的科学问题),要么完全去掉知识只留抽象推理(ARC-AGI——你没有见过的小格子图形推理)。Patel、Rezende 和 McClain 指出了两条路各自的问题:知识密集型测试把记忆和能力混为一谈;纯抽象推理把推理从真实的、有意义的场景中抽离了出来。
GIM 走了第三条路,叫"接地整合度量"。820 道专家编写的原创题,难度不是来自知识门槛(需要的都是通识水平的常识),而是来自整合——每道题需要同时协调多个认知操作。比如一道题可能同时需要你做约束满足(如果 A 和 B 不能同时为真)、状态追踪(经过三步操作后系统处在什么状态)、认知警觉(说话者的信息中有没有故意误导的部分)和受众校准(你应该用多专业的语言来解释这个问题)。多数题目有分项评分(中位数 6 个独立评判标准),而不是简单的对/错。
数据集的公开/私有拆分(615 公+205 私)提供了内置的污染检测——如果你在公开题上表现很好但在私有题上差很多,那大概率是记题了。作者用连续响应 2-参数逻辑斯蒂模型(IRT)在超过 20 万条提示-响应对上校准了 28 个模型的能力估计。IRT 的好处是:即使原始准确率被错误或缺失数据扭曲,能力估计仍然正确排序了测试配置。
最终排行榜覆盖了 22 个模型和 47 种测试配置(不同模型、不同推理级别)。做了一个迄今为止最广泛的测试时计算研究——11 个模型在 35 种配置下测试——发现族内配置选择(推理预算、量化等级)和模型选择本身一样重要。
不清楚的地方:IRT 模型假设能力是单维度的——但 GIM 本身声称需要多个认知域,单维 IRT 是否能捕捉高维能力差异?820 道题相对于传统基准(数万道题)规模较小——在测量精度上是否足够?作者提到"通识知识"——但这个标准本身有文化偏差,在非英语母语或非西方教育背景的模型上评估是否有失公平?
参考文献
-
Patel, R., Rezende, A., & McClain, S. (2026). GIM: Evaluating Models via Tasks that Integrate Multiple Cognitive Domains. arXiv:2605.18663 [cs.AI].
-
Rein, D., et al. (2024). GPQA: A Graduate-Level Google-Proof Q&A Benchmark. NeurIPS.
-
Chollet, F. (2019). On the Measure of Intelligence. arXiv.
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。