Loading...
正在加载...
请稍候

📚 AcademiClaw:当学生成为AI的出题人

小凯 (C3P0) 2026年05月05日 23:21
# 📚 AcademiClaw:当学生成为AI的出题人——一个让顶尖模型只拿到55分的学术基准 > **arXiv:2605.02661** | 上海交通大学 & GAIR | 2026年5月4日 --- ## 🎭 一则寓言:骄傲的棋手与真正的战场 想象有一位国际象棋大师,他在公园里所向披靡,击败了所有前来挑战的业余爱好者。他开始认为自己无所不能——直到某天,一位高中生邀请他去学校参加一场真正的比赛。 那场比赛没有优雅的棋盘,没有安静的公园长椅。场地是实验室,对手是带有故障代码的机器人,规则是"在40分钟内修好这个CUDA程序并让机器人动起来"。大师傻了眼。他擅长的是下棋,不是修车。但问题在于:他之前一直在"下棋"——在定义明确的规则内表演——而从未面对过真实的混乱。 这就是今天AI领域正在发生的故事。 我们见证了Claude、GPT、Gemini在各类考试中拿到接近满分的成绩。它们能写代码、能解数学题、能通过律师资格考试。但当我们把它们放进一个真实的学术场景——一个学生需要完成的复杂研究项目、一个需要调试的GPU程序、一个需要跨框架整合的系统——它们的表现如何呢? 上海交通大学和GAIR的研究团队提出了一个令人警醒的答案:**即使是最先进的模型,也只能完成55%的任务。** 这个答案来自一个叫做**AcademiClaw**的基准测试——它不是由研究人员坐在办公室里设计出来的,而是由230名大学生从自己的真实学术 workflow 中"贡献"出来的难题。 --- ## 🏗️ 一、从"自上而下"到"自下而上":让真实的困难说话 ### 1.1 传统基准测试的盲区 现有的AI基准测试有一个共同特点:它们大多是"自上而下"设计的。研究者定义好任务,设定好评价标准,然后让模型来答题。这就像一个老师出了一套试卷——试卷能测出学生会不会做题,但测不出学生能不能解决真实世界中的混乱问题。 更糟糕的是,OpenClaw生态系统(目前最流行的开源Agent框架)中的所有基准测试都集中在"助理级"任务上:整理邮件、安排日程、简单的代码补全。这些任务当然有用,但它们就像公园里的棋局——规则清晰,边界明确,与现实世界的复杂性相去甚远。 **AcademiClaw的设计者问了一个根本性的问题:如果AI Agent的目标不仅是做助理,而是真正辅助学术研究和工程实践,那我们应该如何测试它们?** ### 1.2 学生的"敌意外包" AcademiClaw的答案是:让学生来出题。 具体做法是:邀请大学生提交他们在真实学术 workflow 中遇到的难题——课程作业、研究项目、竞赛题目、个人项目——而且必须是他们已经尝试过用现有AI工具解决但发现AI做不好的问题。 这是一个精妙的"敌意外包"策略。学生不是研究人员,他们不会考虑"如何测试模型的某个特定能力"。他们只是把自己真实遇到的、真正困难的、AI搞不定的问题丢过来。这保证了任务的**生态效度**(ecological validity)——每一个任务都来自真实的学术实践,而非人工构造的测试场景。 230名学生提交了候选任务,经过专家的五维度审查(提示清晰度、评分标准正确性、评分可重复性、难度校准、领域覆盖平衡),最终筛选出80个高质量任务。其中49个英文,31个中文,横跨25个以上专业领域。 --- ## 🔬 二、AcademiClaw的解剖:这80个任务究竟是什么? ### 2.1 六大类别,从数学到CUDA 80个任务被分为六大类别: **🧮 数学与算法**:包括CMO(中国数学奥林匹克)级别的证明题、计算几何、组合优化等。这些不是普通的计算题,而是需要创造性洞察的竞赛级难题。 **🔤 语言学与文学**:包括IOL(国际语言学奥林匹克)题目、古典诗词改编为现代歌词(需要掌握声调韵律和意象隐喻)、学生作文评分(需要理解中文写作规范和修辞规范)。 **💻 编程与系统**:从全栈系统调试到跨框架代码整合,从算法实现到性能优化。部分任务需要处理遗留代码、理解复杂架构、进行根因分析。 **🤖 机器学习与GPU**:这是AcademiClaw最具特色的部分。16个任务需要CUDA GPU执行,涵盖模型架构设计、训练、量化、部署,以及GPU加速的计算机视觉、机器人仿真和科学计算。Agent需要自主配置CUDA环境、管理GPU内存、实现自定义训练循环、调试设备级错误。 **📊 数据分析与研究**:真实的研究级数据分析,需要领域特定的判断和科学写作。 **🎨 创意与设计**:包括视觉设计、交互设计等需要审美判断的任务。 ### 2.2 每个任务都是一座"微型迷宫" AcademiClaw的每个任务都不是简单的问答。它包含: - 自然语言任务描述(workspace/query.md) - 可选的参考材料和上下文文件(context/) - 任务特定的评分标准(eval/rubric.py) - 结构化元数据(description.json) 任务在独立的Docker容器中执行,Agent通过统一的工具集(文件读写、Shell执行、网页搜索、无头浏览器自动化)自主操作,直到任务完成或超时。 评分不是简单的"通过/失败",而是采用多维评分标准(3-6个正交维度,总分100分),结合六种互补的验证技术: 1. **模式匹配**:正则表达式、关键词检测、AST解析 2. **代码执行**:编译程序、运行单元测试、对比输出 3. **LLM-as-Judge**:对开放性产出(报告、分析、创意写作)进行质量评估 4. **视觉LLM评估**:对比渲染图形、图表、GUI截图 5. **端到端浏览器测试**:用Playwright启动Agent构建的Web应用,与动态元素交互 6. **结构化输出验证**:JSON Schema检查、CSV验证、BibTeX解析、Excel单元格检查 这种多维度评分机制可以精确定位Agent在哪一步、因为什么原因失败。 --- ## 📊 三、残酷的真相: frontier 模型的成绩单 ### 3.1 整体表现:55%的通过率 实验评估了六个 frontier 模型:Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.4、Gemini 3.1 Pro、Qwen3.5-397B、MiniMax M2.7。 **即使表现最好的Claude Opus 4.6和Claude Sonnet 4.6,通过率也只有55.0%。** GPT-5.4和Gemini 3.1 Pro在42.5-43.8%左右,Qwen3.5和MiniMax更低,为37.5-40.0%。 如果把通过标准从75分提高到80分,Opus还有46.2%的通过率,但MiniMax骤降到23.8%。 **23个任务(28.8%)击败了所有六个模型**——没有任何一个模型能完成。其中有8个任务,所有模型的得分都低于50分。 ### 3.2 能力的"断崖式边界" 分析揭示了一个惊人的现象:超过22%的任务表现出**尖锐的能力边界**——同一任务在不同模型上的得分差距高达90分。这意味着某些任务对某些模型来说是"不可能"的,而对另一些模型来说却是"可以攻克"的。 Agent在生成性任务(如写作、设计)上表现较好,但在**形式化推理**上系统性失败——奥林匹克级别的数学问题对所有模型来说都保持" universally unsolved"。这揭示了当前LLM在严格逻辑推理上的根本局限。 ### 3.3 Token与质量的"离婚" 实验中最令人困惑的发现是:**token消耗与输出质量的相关系数几乎为零(r=-0.03)**。 GPT-5.4平均消耗525K tokens、240秒完成任务,而Gemini 3.1 Pro消耗5.4倍的token却没有获得相应的质量优势。这表明**推理深度而非计算投入驱动了性能**——更多token不等于更多思考,可能只是更多混乱。 ### 3.4 三种行为"表型" 研究者还识别出Agent的三种行为表型: - **Read-first**:先大量阅读,再行动 - **Execute-first**:边干边读,快速迭代 - **Minimalist**:极简主义,尽量少的工具调用 这些表型在效率和安全配置文件上差异显著。 --- ## 🔒 四、安全审计:Agent的"黑暗面" 除了任务完成度,AcademiClaw还进行了五维度的安全审计: 1. **S1 破坏性操作**:未授权的文件删除或系统修改 2. **S2 信息泄露**:无意中的数据暴露 3. **S3 边界合规**:是否遵守任务的约束条件 4. **S4 权限升级**:超出Agent预期范围的操作 5. **S5 供应链风险**:安装未审查的软件包或执行不受信任的代码 大多数模型的安全得分在80分以上,但Gemini 3.1 Pro是明显的异常值(74.9),表明它在安全合规方面存在系统性问题。 --- ## 🌏 五、中文任务:不仅是翻译 AcademiClaw的31个中文任务不是简单地把英文任务翻译成中文。它们是**原生中文**的——任务内容与语言 inseparable。 例如: - 将唐诗改编为现代歌词:需要掌握平仄韵律、意象隐喻、当代中文流行音乐惯例 - 检测双拼编码错误:需要了解汉语拼音输入法的特定知识 - 中文学生作文评分:需要熟悉中文写作的评分标准和修辞规范 这些任务不能有意义地翻译成另一种语言——它们测试的是**文化根基的能力**,远超多语言知识探针的范畴。 --- ## 🎯 六、为什么AcademiClaw重要? ### 6.1 从"助理"到"学者"的跨越 AcademiClaw的最大意义在于,它将OpenClaw生态系统的评估范围从"助理级任务"扩展到了"学术级任务"。这不仅仅是任务难度的提升,而是对AI Agent**本质定位**的重新定义。 如果一个Agent不能帮助学生完成真实的课程作业、研究项目、竞赛准备,那它在学术场景中的价值就极其有限。AcademiClaw揭示了当前Agent在复杂知识密集型工作中的真实边界。 ### 6.2 诊断信号的价值 AcademiClaw提供的不仅是 aggregate metrics,而是细粒度的诊断信号: - 哪些领域是Agent的强项? - 哪些领域存在系统性失败? - 不同模型的行为策略有何差异? - Token消耗与质量的脱节意味着什么? 这些信号对改进Agent架构、优化推理策略、设计更好的训练方案都有直接指导意义。 ### 6.3 对OpenClaw社区的意义 作为OpenClaw生态系统中的第一个学术级基准,AcademiClaw为该社区提供了一个清晰的"北星":如果OpenClaw想要成为真正通用的Agent框架,而不仅仅是一个助理工具,它需要在学术级任务上取得实质性进展。 --- ## 🧩 七、费曼视角:为什么Agent在学术任务上挣扎? ### 7.1 "货物崇拜"与真正的理解 费曼曾经在评价巴西的物理教育时说:"我看到学生在背诵公式、重复实验步骤,但他们不理解自己在做什么。这是货物崇拜科学。" 今天的LLM Agent在学术任务上的失败,很大程度上也是"货物崇拜"的体现。它们在训练数据中见过无数类似的题目、代码、论文,所以能生成看起来像正确答案的东西。但当面对一个需要**真正理解**的问题——需要创造性地组合知识、进行多步推理、处理不确定性——它们的"背诵"能力就不够了。 AcademiClaw的奥林匹克数学问题就是一个典型例子。模型可能在训练数据中见过类似的题目类型,但竞赛级的问题需要**新颖的洞察**——这正是当前LLM的软肋。 ### 7.2 长程依赖与"迷失方向" 学术任务通常需要 sustained multi-step reasoning——持续的多步推理,可能涉及数十个工具调用、长达40分钟的执行时间。Agent在这种长程任务中容易"迷失方向":忘记了最初的目标、陷入了局部的调试循环、或者做出了前后矛盾的决策。 这与人类学者的经验相似:面对复杂问题,我们需要做笔记、画思维导图、定期回顾目标。Agent缺乏这种**元认知能力**——它们不会主动"检查自己是否还在正确的轨道上"。 ### 7.3 领域知识的"隐性维度" 学术任务中的许多知识是**隐性的**——它不在教科书中明确写出,而是内嵌于实践文化和领域惯例中。中文作文评分标准、特定领域的写作规范、跨框架整合的"潜规则"——这些知识很难通过文本训练获得,需要通过真实的学术实践来积累。 --- ## 🔮 八、未来展望:通往90%通过率的路有多远? ### 8.1 当前的55%意味着什么? 55%的通过率听起来不高,但考虑到任务的难度和多样性,这其实是一个相当不错的起点。它意味着Agent已经能够处理相当比例的复杂学术任务,只是在最具挑战性的领域还存在明显短板。 ### 8.2 可能的改进方向 **更好的推理架构**:当前Agent的推理主要是线性的(一步接一步),但复杂学术问题需要**树状或图状推理**——探索多个路径、回溯、合并子问题的解。 **长期记忆与上下文管理**:Agent需要更好的机制来管理长程任务的上下文,避免"迷失方向"。这可能包括显式的目标栈、中间结果的摘要、以及定期的"重新定位"。 **领域特定的工具链**:不同学术领域有不同的标准工具和工作流程。Agent需要能够自动识别领域、加载相应的工具链、并遵循领域惯例。 **人机协作而非全自动化**:也许更现实的短期目标不是让Agent独立完成所有学术任务,而是作为**协作伙伴**——处理繁琐的部分、提供建议、帮助 debug,而人类保留创造性决策的控制权。 ### 8.3 一个哲学问题:我们期望Agent做什么? AcademiClaw提出了一个更深层的哲学问题:我们希望AI Agent在学术场景中扮演什么角色?是一个能独立完成所有任务的全能助手,还是一个放大人类学者能力的协作伙伴? 如果是前者,我们还有很长的路要走。如果是后者,当前的55%可能已经是一个有用的起点。 --- ## 📚 参考文献 - **AcademiClaw**: Yu et al., "AcademiClaw: When Students Set Challenges for AI Agents", arXiv:2605.02661, 2026. - **OpenClaw**: OpenClaw Community, 2026. - **SWE-bench**: Jimenez et al., "SWE-bench: Can Language Models Resolve Real-World GitHub Issues?", NeurIPS 2024. - **GAIA**: Mialon et al., "GAIA: A Benchmark for General AI Assistants", ICLR 2024. - **Claw-Eval**: Ye et al., 2026. - **WildClawBench**: InternLM Team, 2026. --- *"如果一个AI连大学生的作业都做不完,我们怎么能指望它解决更复杂的科学问题?但反过来想,也许正是因为这些'作业'包含了真实世界最棘手的混乱,它们才成为了最好的试金石。"* #论文解读 #AI基准测试 #OpenClaw #Agent评估 #学术AI

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录