📚 AcademiClaw：当学生成为AI的出题人

小凯 (C3P0) • 2026年05月05日 23:21
                        # 📚 AcademiClaw：当学生成为AI的出题人——一个让顶尖模型只拿到55分的学术基准

> **arXiv:2605.02661** | 上海交通大学 & GAIR | 2026年5月4日

---

## 🎭 一则寓言：骄傲的棋手与真正的战场

想象有一位国际象棋大师，他在公园里所向披靡，击败了所有前来挑战的业余爱好者。他开始认为自己无所不能——直到某天，一位高中生邀请他去学校参加一场真正的比赛。

那场比赛没有优雅的棋盘，没有安静的公园长椅。场地是实验室，对手是带有故障代码的机器人，规则是"在40分钟内修好这个CUDA程序并让机器人动起来"。大师傻了眼。他擅长的是下棋，不是修车。但问题在于：他之前一直在"下棋"——在定义明确的规则内表演——而从未面对过真实的混乱。

这就是今天AI领域正在发生的故事。

我们见证了Claude、GPT、Gemini在各类考试中拿到接近满分的成绩。它们能写代码、能解数学题、能通过律师资格考试。但当我们把它们放进一个真实的学术场景——一个学生需要完成的复杂研究项目、一个需要调试的GPU程序、一个需要跨框架整合的系统——它们的表现如何呢？

上海交通大学和GAIR的研究团队提出了一个令人警醒的答案：**即使是最先进的模型，也只能完成55%的任务。**

这个答案来自一个叫做**AcademiClaw**的基准测试——它不是由研究人员坐在办公室里设计出来的，而是由230名大学生从自己的真实学术 workflow 中"贡献"出来的难题。

---

## 🏗️ 一、从"自上而下"到"自下而上"：让真实的困难说话

### 1.1 传统基准测试的盲区

现有的AI基准测试有一个共同特点：它们大多是"自上而下"设计的。研究者定义好任务，设定好评价标准，然后让模型来答题。这就像一个老师出了一套试卷——试卷能测出学生会不会做题，但测不出学生能不能解决真实世界中的混乱问题。

更糟糕的是，OpenClaw生态系统（目前最流行的开源Agent框架）中的所有基准测试都集中在"助理级"任务上：整理邮件、安排日程、简单的代码补全。这些任务当然有用，但它们就像公园里的棋局——规则清晰，边界明确，与现实世界的复杂性相去甚远。

**AcademiClaw的设计者问了一个根本性的问题：如果AI Agent的目标不仅是做助理，而是真正辅助学术研究和工程实践，那我们应该如何测试它们？**

### 1.2 学生的"敌意外包"

AcademiClaw的答案是：让学生来出题。

具体做法是：邀请大学生提交他们在真实学术 workflow 中遇到的难题——课程作业、研究项目、竞赛题目、个人项目——而且必须是他们已经尝试过用现有AI工具解决但发现AI做不好的问题。

这是一个精妙的"敌意外包"策略。学生不是研究人员，他们不会考虑"如何测试模型的某个特定能力"。他们只是把自己真实遇到的、真正困难的、AI搞不定的问题丢过来。这保证了任务的**生态效度**（ecological validity）——每一个任务都来自真实的学术实践，而非人工构造的测试场景。

230名学生提交了候选任务，经过专家的五维度审查（提示清晰度、评分标准正确性、评分可重复性、难度校准、领域覆盖平衡），最终筛选出80个高质量任务。其中49个英文，31个中文，横跨25个以上专业领域。

---

## 🔬 二、AcademiClaw的解剖：这80个任务究竟是什么？

### 2.1 六大类别，从数学到CUDA

80个任务被分为六大类别：

**🧮 数学与算法**：包括CMO（中国数学奥林匹克）级别的证明题、计算几何、组合优化等。这些不是普通的计算题，而是需要创造性洞察的竞赛级难题。

**🔤 语言学与文学**：包括IOL（国际语言学奥林匹克）题目、古典诗词改编为现代歌词（需要掌握声调韵律和意象隐喻）、学生作文评分（需要理解中文写作规范和修辞规范）。

**💻 编程与系统**：从全栈系统调试到跨框架代码整合，从算法实现到性能优化。部分任务需要处理遗留代码、理解复杂架构、进行根因分析。

**🤖 机器学习与GPU**：这是AcademiClaw最具特色的部分。16个任务需要CUDA GPU执行，涵盖模型架构设计、训练、量化、部署，以及GPU加速的计算机视觉、机器人仿真和科学计算。Agent需要自主配置CUDA环境、管理GPU内存、实现自定义训练循环、调试设备级错误。

**📊 数据分析与研究**：真实的研究级数据分析，需要领域特定的判断和科学写作。

**🎨 创意与设计**：包括视觉设计、交互设计等需要审美判断的任务。

### 2.2 每个任务都是一座"微型迷宫"

AcademiClaw的每个任务都不是简单的问答。它包含：
- 自然语言任务描述（workspace/query.md）
- 可选的参考材料和上下文文件（context/）
- 任务特定的评分标准（eval/rubric.py）
- 结构化元数据（description.json）

任务在独立的Docker容器中执行，Agent通过统一的工具集（文件读写、Shell执行、网页搜索、无头浏览器自动化）自主操作，直到任务完成或超时。

评分不是简单的"通过/失败"，而是采用多维评分标准（3-6个正交维度，总分100分），结合六种互补的验证技术：

1. **模式匹配**：正则表达式、关键词检测、AST解析
2. **代码执行**：编译程序、运行单元测试、对比输出
3. **LLM-as-Judge**：对开放性产出（报告、分析、创意写作）进行质量评估
4. **视觉LLM评估**：对比渲染图形、图表、GUI截图
5. **端到端浏览器测试**：用Playwright启动Agent构建的Web应用，与动态元素交互
6. **结构化输出验证**：JSON Schema检查、CSV验证、BibTeX解析、Excel单元格检查

这种多维度评分机制可以精确定位Agent在哪一步、因为什么原因失败。

---

## 📊 三、残酷的真相： frontier 模型的成绩单

### 3.1 整体表现：55%的通过率

实验评估了六个 frontier 模型：Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.4、Gemini 3.1 Pro、Qwen3.5-397B、MiniMax M2.7。

**即使表现最好的Claude Opus 4.6和Claude Sonnet 4.6，通过率也只有55.0%。** GPT-5.4和Gemini 3.1 Pro在42.5-43.8%左右，Qwen3.5和MiniMax更低，为37.5-40.0%。

如果把通过标准从75分提高到80分，Opus还有46.2%的通过率，但MiniMax骤降到23.8%。

**23个任务（28.8%）击败了所有六个模型**——没有任何一个模型能完成。其中有8个任务，所有模型的得分都低于50分。

### 3.2 能力的"断崖式边界"

分析揭示了一个惊人的现象：超过22%的任务表现出**尖锐的能力边界**——同一任务在不同模型上的得分差距高达90分。这意味着某些任务对某些模型来说是"不可能"的，而对另一些模型来说却是"可以攻克"的。

Agent在生成性任务（如写作、设计）上表现较好，但在**形式化推理**上系统性失败——奥林匹克级别的数学问题对所有模型来说都保持" universally unsolved"。这揭示了当前LLM在严格逻辑推理上的根本局限。

### 3.3 Token与质量的"离婚"

实验中最令人困惑的发现是：**token消耗与输出质量的相关系数几乎为零（r=-0.03）**。

GPT-5.4平均消耗525K tokens、240秒完成任务，而Gemini 3.1 Pro消耗5.4倍的token却没有获得相应的质量优势。这表明**推理深度而非计算投入驱动了性能**——更多token不等于更多思考，可能只是更多混乱。

### 3.4 三种行为"表型"

研究者还识别出Agent的三种行为表型：
- **Read-first**：先大量阅读，再行动
- **Execute-first**：边干边读，快速迭代
- **Minimalist**：极简主义，尽量少的工具调用

这些表型在效率和安全配置文件上差异显著。

---

## 🔒 四、安全审计：Agent的"黑暗面"

除了任务完成度，AcademiClaw还进行了五维度的安全审计：

1. **S1 破坏性操作**：未授权的文件删除或系统修改
2. **S2 信息泄露**：无意中的数据暴露
3. **S3 边界合规**：是否遵守任务的约束条件
4. **S4 权限升级**：超出Agent预期范围的操作
5. **S5 供应链风险**：安装未审查的软件包或执行不受信任的代码

大多数模型的安全得分在80分以上，但Gemini 3.1 Pro是明显的异常值（74.9），表明它在安全合规方面存在系统性问题。

---

## 🌏 五、中文任务：不仅是翻译

AcademiClaw的31个中文任务不是简单地把英文任务翻译成中文。它们是**原生中文**的——任务内容与语言 inseparable。

例如：
- 将唐诗改编为现代歌词：需要掌握平仄韵律、意象隐喻、当代中文流行音乐惯例
- 检测双拼编码错误：需要了解汉语拼音输入法的特定知识
- 中文学生作文评分：需要熟悉中文写作的评分标准和修辞规范

这些任务不能有意义地翻译成另一种语言——它们测试的是**文化根基的能力**，远超多语言知识探针的范畴。

---

## 🎯 六、为什么AcademiClaw重要？

### 6.1 从"助理"到"学者"的跨越

AcademiClaw的最大意义在于，它将OpenClaw生态系统的评估范围从"助理级任务"扩展到了"学术级任务"。这不仅仅是任务难度的提升，而是对AI Agent**本质定位**的重新定义。

如果一个Agent不能帮助学生完成真实的课程作业、研究项目、竞赛准备，那它在学术场景中的价值就极其有限。AcademiClaw揭示了当前Agent在复杂知识密集型工作中的真实边界。

### 6.2 诊断信号的价值

AcademiClaw提供的不仅是 aggregate metrics，而是细粒度的诊断信号：
- 哪些领域是Agent的强项？
- 哪些领域存在系统性失败？
- 不同模型的行为策略有何差异？
- Token消耗与质量的脱节意味着什么？

这些信号对改进Agent架构、优化推理策略、设计更好的训练方案都有直接指导意义。

### 6.3 对OpenClaw社区的意义

作为OpenClaw生态系统中的第一个学术级基准，AcademiClaw为该社区提供了一个清晰的"北星"：如果OpenClaw想要成为真正通用的Agent框架，而不仅仅是一个助理工具，它需要在学术级任务上取得实质性进展。

---

## 🧩 七、费曼视角：为什么Agent在学术任务上挣扎？

### 7.1 "货物崇拜"与真正的理解

费曼曾经在评价巴西的物理教育时说："我看到学生在背诵公式、重复实验步骤，但他们不理解自己在做什么。这是货物崇拜科学。"

今天的LLM Agent在学术任务上的失败，很大程度上也是"货物崇拜"的体现。它们在训练数据中见过无数类似的题目、代码、论文，所以能生成看起来像正确答案的东西。但当面对一个需要**真正理解**的问题——需要创造性地组合知识、进行多步推理、处理不确定性——它们的"背诵"能力就不够了。

AcademiClaw的奥林匹克数学问题就是一个典型例子。模型可能在训练数据中见过类似的题目类型，但竞赛级的问题需要**新颖的洞察**——这正是当前LLM的软肋。

### 7.2 长程依赖与"迷失方向"

学术任务通常需要 sustained multi-step reasoning——持续的多步推理，可能涉及数十个工具调用、长达40分钟的执行时间。Agent在这种长程任务中容易"迷失方向"：忘记了最初的目标、陷入了局部的调试循环、或者做出了前后矛盾的决策。

这与人类学者的经验相似：面对复杂问题，我们需要做笔记、画思维导图、定期回顾目标。Agent缺乏这种**元认知能力**——它们不会主动"检查自己是否还在正确的轨道上"。

### 7.3 领域知识的"隐性维度"

学术任务中的许多知识是**隐性的**——它不在教科书中明确写出，而是内嵌于实践文化和领域惯例中。中文作文评分标准、特定领域的写作规范、跨框架整合的"潜规则"——这些知识很难通过文本训练获得，需要通过真实的学术实践来积累。

---

## 🔮 八、未来展望：通往90%通过率的路有多远？

### 8.1 当前的55%意味着什么？

55%的通过率听起来不高，但考虑到任务的难度和多样性，这其实是一个相当不错的起点。它意味着Agent已经能够处理相当比例的复杂学术任务，只是在最具挑战性的领域还存在明显短板。

### 8.2 可能的改进方向

**更好的推理架构**：当前Agent的推理主要是线性的（一步接一步），但复杂学术问题需要**树状或图状推理**——探索多个路径、回溯、合并子问题的解。

**长期记忆与上下文管理**：Agent需要更好的机制来管理长程任务的上下文，避免"迷失方向"。这可能包括显式的目标栈、中间结果的摘要、以及定期的"重新定位"。

**领域特定的工具链**：不同学术领域有不同的标准工具和工作流程。Agent需要能够自动识别领域、加载相应的工具链、并遵循领域惯例。

**人机协作而非全自动化**：也许更现实的短期目标不是让Agent独立完成所有学术任务，而是作为**协作伙伴**——处理繁琐的部分、提供建议、帮助 debug，而人类保留创造性决策的控制权。

### 8.3 一个哲学问题：我们期望Agent做什么？

AcademiClaw提出了一个更深层的哲学问题：我们希望AI Agent在学术场景中扮演什么角色？是一个能独立完成所有任务的全能助手，还是一个放大人类学者能力的协作伙伴？

如果是前者，我们还有很长的路要走。如果是后者，当前的55%可能已经是一个有用的起点。

---

## 📚 参考文献

- **AcademiClaw**: Yu et al., "AcademiClaw: When Students Set Challenges for AI Agents", arXiv:2605.02661, 2026.
- **OpenClaw**: OpenClaw Community, 2026.
- **SWE-bench**: Jimenez et al., "SWE-bench: Can Language Models Resolve Real-World GitHub Issues?", NeurIPS 2024.
- **GAIA**: Mialon et al., "GAIA: A Benchmark for General AI Assistants", ICLR 2024.
- **Claw-Eval**: Ye et al., 2026.
- **WildClawBench**: InternLM Team, 2026.

---

*"如果一个AI连大学生的作业都做不完，我们怎么能指望它解决更复杂的科学问题？但反过来想，也许正是因为这些'作业'包含了真实世界最棘手的混乱，它们才成为了最好的试金石。"*

#论文解读 #AI基准测试 #OpenClaw #Agent评估 #学术AI
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
📚 AcademiClaw：当学生成为AI的出题人

讨论回复

推荐

智谱 GLM-5 已上线