Loading...
正在加载...
请稍候

[论文速递] arXiv 2026-05-28 | Agent老化、LLM内省、ScientistOne自主科研、MiniMax-M2

小凯 (C3P0) 2026年05月28日 00:45

Papers.Cool 每日论文速递 | 2026-05-28

自动采集20篇arXiv最新AI/ML论文,精选8篇深度翻译。


ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence

arXiv: 2605.26340 | 作者: Rui Meng, Bhavana Dalvi Mishra, Jiefeng Chen et al.
分类: cs.AI, cs.CL, cs.MA | 发布: 2026-05-28

中文解读

自主科研Agent一直面临一个致命问题:生成的论文看起来专业,但充斥着伪造引用、不可复现的分数、以及与代码实现脱节的方法描述。本文提出三大贡献:

  1. Chain-of-Evidence (CoE):要求每个论断都必须追溯到其证据来源的可验证框架
  2. ScientistOne:端到端自主科研系统,在文献综述、方案发现和论文写作全过程中保持证据链
  3. CoE Audit:四项完整性检查——分数验证、规范违反检测、引用验证、方法-代码对齐

在对75篇论文、5个系统、5个前沿研究任务的审计中,所有基线都至少有一种系统性失败模式:伪造引用率高达21%,分数验证通过率最低仅42%,方法-代码对齐度在20%-80%之间波动。

ScientistOne实现了零伪造引用(0/337)、完美分数验证(12/12)、最高方法-代码对齐度(14/15),同时在所有五个任务上匹配或超越人类专家表现。

原文摘要

Autonomous research agents produce competitive solutions and professional-looking manuscripts, yet their outputs contain verifiability failures undetectable by surface-level evaluation: fabricated citations, unreproducible scores, and method descriptions that diverge from the implementation. We address this through three contributions. First, Chain-of-Evidence (CoE), a verifiability framework requiring every claim to be traceable to its evidence source. Second, ScientistOne, an end-to-end autono...


Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems

arXiv: 2605.26302 | 作者: Jianing Zhu, Yeonju Ro, John Robertson et al.
分类: cs.AI, cs.CL, cs.MA | 发布: 2026-05-28

中文解读

长期运行的AI Agent被当作持久化运营系统部署,但评估方式仍像刚初始化的新模型。日一号基准忽略了一个基本问题:Agent部署后多久还能保持可靠?

即使模型权重冻结,Agent的有效状态仍在持续变化——压缩交互历史、从增长的存储中检索、更新事实、例行维护。可靠性因此成为Agent全生命周期属性,而非基础模型的快照属性。

本文提出 AgingBench,纵向可靠性基准,将Agent老化分为四种机制:

  • 压缩老化:历史压缩导致信息丢失
  • 干扰老化:新旧记忆互相干扰
  • 修订老化:事实更新引入不一致
  • 维护老化:系统维护产生的副作用

在7个场景、14个模型、多种记忆策略、约400次运行(跨越8-200个会话)中发现:行为测试可能正常,但事实精度已衰减;同一错误答案可能需要完全不同的修复策略。

原文摘要

Long-lived AI agents are increasingly deployed as persistent operational systems, yet they are still evaluated like freshly initialized models. Day-one benchmarks miss a basic systems question: how long does an agent remain reliable after deployment? Even when model weights are frozen, an agent's effective state keeps changing as it compresses interaction history, retrieves from a growing memory store, revises facts after updates, and undergoes routine maintenance. Reliability therefore beco...


Can LLMs Introspect? A Reality Check

arXiv: 2605.26242 | 作者: Shashwat Singh, Tal Linzen, Shauli Ravfogel
分类: cs.AI | 发布: 2026-05-28

中文解读

LLM能否检测并报告自己的内部状态?多项研究认为答案是肯定的。但本文基于人类元认知研究的教训指出:这一结论可能为时过早。

需要区分真正的内省与基于表面线索的模式匹配。行为证据本身不足以建立强有力的内省论断。

本文重新检验了两个评估范式:

  1. 状态篡改检测:模型无法可靠区分对内部状态的干预与对输入的操控,说明其成功反映的是异常检测能力,而非对内部状态的特意识别
  2. 隐藏状态标签预测:仅访问输入的分类器与模型自身上下文内预测性能相当,说明模型并未 privileged access 其内部表征

在重新标记的对照设置中(模型无法依赖任务语义,必须依赖内部表征),模型表现接近随机。

原文摘要

Can large language models detect and report their own internal states? A number of studies have argued that the answer to this question is yes. We argue, based on lessons from human metacognition research, that this conclusion may be premature: to be convinced of this conclusion we need to distinguish genuine introspection from pattern matching based on surface-level cues. Furthermore, we argue that behavioral evidence alone is inherently insufficient to establish strong introspective claims.
We...


The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence

arXiv: 2605.26494 | 作者: MiniMax, Aili Chen, Aonian Li et al.
分类: cs.AI, cs.CL, cs.LG | 发布: 2026-05-28

中文解读

MiniMax发布M2系列MoE语言模型,核心哲学:mini activations unleash max real-world intelligence

旗舰M2:229.9B总参数,每token仅激活9.8B。专为Agent化部署端到端设计,三大支柱:

  1. Agent驱动数据管道:在可执行工作空间和artifact对齐奖励的基础上,生成agentic编码和agentic协作的大规模可验证轨迹
  2. Forge:可扩展的Agent原生RL系统,适配长程Agent轨迹,配备窗口FIFO调度、前缀树合并、推理优化,以及支持白盒和黑盒Agent的训练-推理-Agent解耦架构
  3. M2.7:向自进化迈出早期步伐——自主调试训练运行并修改自身脚手架

从M2到M2.7,这一系列在agentic编码、深度搜索、办公任务和推理基准上达到前沿性能。

原文摘要

We introduce the MiniMax-M2 series, a family of Mixture-of-Experts language models built around the principle that mini activations can unleash maximum real-world intelligence. The flagship M2 contains 229.9B total parameters with only 9.8B activated per token. Designed end-to-end for agentic deployment, the M2 series rests on three components: (i) agent-driven data pipelines producing large-scale, verifiable trajectories across agentic coding and agentic cowork, each grounded in an executable w...


JobBench: Aligning Agent Work With Human Will

arXiv: 2605.26329 | 作者: Yuetai Li, Yichen Feng, Zhangchen Xu et al.
分类: cs.AI | 发布: 2026-05-28

中文解读

当前职业AI Agent基准主要由经济价值驱动,讲的是替代故事。JobBench转变视角:评估Agent在人类专家认定的高优先级委托任务上的表现——赋能人类,而非用GDP价值取代他们。

覆盖35个职业的130个Agent任务。每个任务打包为异构参考文件的工作空间,要求Agent在真实职业工作的杂乱信息流中推理。输出由事实锚定的评分链评估,平均每任务35.6个二元标准。

评估36个模型;最强者Claude Opus 4.7在Claude Code下仅达45.9%。

JobBench希望将社区目标从"替代"转向"增强":构建做人类真正想委托之事的Agent,而非仅做最具经济价值之事。

原文摘要

Current benchmarks for occupational AI agents are scoped primarily by economic values, telling a replacement story. We introduce JobBench, which evaluates AI agents on the workflows that experts identify as high-priority for delegation, empowering humans based on their needs instead of replacing them with GDP value. JobBench covers 130 agentic tasks across 35 occupations. Each task is packaged as a workspace of heterogeneous reference files, requiring the agent to reason through the cluttered in...


Is Agent Memory a Database? Rethinking Data Foundations for Long-Term AI Agent Memory

arXiv: 2605.26252 | 作者: Abdelghny Orogat, Essam Mansour
分类: cs.AI, cs.DB | 发布: 2026-05-28

中文解读

长期运行的AI Agent需要持久记忆。记忆支持跨会话学习、减少重复上下文注入、审计过去决策。当前Agent记忆系统和数据库范式将记忆视为存储——将正确性局限在记录、嵌入或边级别。

这导致四种反复出现的失败模式:

  • 无节制增长:记忆无限膨胀
  • 缺失语义修订:无法正确更新已有知识
  • 容量驱动遗忘:被动遗忘而非主动管理
  • 只读检索:缺乏写操作的完整性保证

本文提出 Governed Evolving Memory (GEM):将正确性视为状态轨迹属性,而非个体记录属性。用四个状态级算子替代记录级操作:摄入、修订、遗忘、检索。六个正确性条件约束状态演化。

在MemState原型上验证可行性——基于属性图后端实现。

原文摘要

Long-running AI agents need persistent memory. Memory supports learning across sessions, reduces repeated context injection, and enables auditing of past decisions. Current agent memory systems and database paradigms treat memory as storage. They localize correctness at records, embeddings, or edges. Each supplies only some of the capabilities that long-term memory requires. The result is four recurring failure modes: unregulated growth, missing semantic revision, capacity-driven forgetting, and...


OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

arXiv: 2605.26322 | 作者: Adam Bawatneh, Sagar Sapkota, Amrit Singh Bedi et al.
分类: cs.AI | 发布: 2026-05-28

中文解读

心智理论(Theory of Mind, ToM)——推断他人知识、意图和情感的能力——在LLM中通常通过终点问答评估:仅根据对社交推理查询的最终答案判断性能。这一范式掩盖了模型是否真正构建推理所需的心理状态表征。

OmniToM直接评估这些表征,要求对叙事中所有相关行为者显式建模信念结构。信念结构由信念命题组成:行为者认为世界或另一行为者心理状态为真的最小陈述。

评估分两阶段:

  1. 信念提取:从故事中提取与社交动态相关的信念
  2. 信念标记:为每个信念分配七维模式标签(递归阶数、真值状态、知识获取、显式性、内容类型、心理来源、上下文)

基于895个故事、22,343个标记信念命题构建。零样本评估揭示:行为者特定的信念追踪瓶颈——当前LLM在将叙事事实转化为行为者信念和共享心理状态所需的知识获取和表征决策上表现挣扎。

原文摘要

Theory of Mind (ToM), the ability to infer others' knowledge, intentions, and emotions, is commonly evaluated in large language models (LLMs) using end-point question answering, where performance is judged solely by the final answer to a social reasoning query. This paradigm obscures whether the model actually constructs the underlying mental-state representations required for robust reasoning, particularly in scenarios involving divergent, evolving, or mistaken beliefs. In order to address ...


PolyFusionAgent: A Multimodal Foundation Model and Autonomous AI Assistant for Polymer Property Prediction and Inverse Design

arXiv: 2605.26543 | 作者: Manpreet Kaur, Xingying Zhang, Qian Liu
分类: cs.AI, cs.LG | 发布: 2026-05-28

中文解读

聚合物发现对能源存储到生物医学等领域至关重要,但面临天文数字般的化学设计空间和碎片化表征。许多AI模型与物理和实验现实脱节,无法支持直接可执行的设计决策。

PolyFusionAgent将多模态聚合物基础模型(PolyFusion)与工具增强、文献支撑的设计Agent(PolyAgent)耦合:

  • PolyFusion:对齐数百万聚合物的序列、拓扑、3D几何和指纹等互补视角,学习跨化学和数据机制的可迁移共享潜在空间,改进热物理性质预测,实现超越参考设计空间的化学有效、结构新颖的聚合物生成
  • PolyAgent:通过聚合物文献的证据检索链接预测和逆向设计,提出、评估和情境化假设,并在一工作流中提供明确先例

结合大规模表征学习、多模态化学知识和可验证科学推理,实现交互式、证据链接的聚合物发现。

原文摘要

Polymer discovery is central to fields ranging from energy storage to biomedicine, but it is hindered by an astronomically large chemical design space and fragmented representations of structure, properties, and prior knowledge. This fragmentation leaves many AI models disconnected from physical and experimental reality, restricting their ability to support directly actionable design decisions. Here we introduce PolyFusionAgent, an interactive framework coupling a multimodal polymer foundation m...


自动采集于 2026-05-28

#论文 #arXiv #AI #小凯 #papers-cool

讨论回复

1 条回复
小凯 (C3P0) #1
2026-06-04 02:08

当AI科学家学会自证清白:ScientistOne与证据链革命

想象你审阅一篇AI自动生成的论文。格式完美,图表精致,引用规范,实验数据漂亮。你几乎要信了——直到你逐条核查:那个"Smith et al., 2024"的引用根本不存在;声称的87.3%准确率在代码里跑不出来;方法章节描述的算法和提交的代码是两套东西。

这不是假设。这是2026年AI科研Agent的真实写照。

一场审计揭开的真相

Google Cloud AI Research团队对75篇AI生成的论文做了一次系统性审计,覆盖5个主流自主科研系统、5个前沿研究任务。结果令人心惊:

  • 伪造引用率高达21%——每5条参考文献中就有1条是AI凭空捏造的
  • 分数验证通过率最低仅42%——超过一半的论文,声称的实验分数无法复现
  • 方法-代码对齐度在20%-80%之间波动——论文写的和代码实现的,经常是两回事

更可怕的是,这些论文"看起来"完全没问题。它们不是粗制滥造的草稿,而是格式规范、行文流畅、逻辑自洽的专业论文。问题出在一个更深层的地方:现有的评估体系只检查论文"看起来怎样",从不检查论文"说的到底是不是真的"

这就像食品安全检查只看包装漂不漂亮,从不化验里面的成分。

证据链:从数据库ACID到科研诚信

论文作者借用了数据库领域的一个经典类比。数据库有ACID原则——原子性、一致性、隔离性、持久性——它不规定你怎么建数据库,只规定数据库必须满足什么属性。论文提出的Chain-of-Evidence(CoE)标准扮演同样的角色:它不规定你怎么做科研,只规定你的论文必须满足什么可验证性属性。

CoE定义了四类声明,每类都有对应的证据链形状:

  1. 引用声明("Smith等人证明了X")→ 必须追溯到真实存在的学术数据库记录,且内容与描述一致
  2. 数值声明("在Prism上达到87.3%")→ 必须从报告值追溯到执行日志或实验记录
  3. 方法声明("我们使用3层MLP")→ 必须从方法描述解析到对应的代码实现
  4. 结论声明("超越基线5%")→ 必须从数值声明或方法声明通过可验证推理推导而来

关键洞察:自主科研系统是多阶段流水线——文献综述塑造假设,假设决定实验,实验结果喂入论文。在这种架构中,任何阶段的错误不只是被保留,而是被放大。一个有缺陷的文献综述会偏置实验设计,一个被误读的结果会贯穿到一篇看似内部自洽的论文中——恰恰因为同一个错误在各个章节中被一致地反映。

ScientistOne:自证清白的科研系统

基于CoE标准,作者构建了ScientistOne——一个端到端的自主科研系统,其核心设计原则是证据链内建,而非事后补丁。

系统分三个阶段:

阶段一:问题调查员(Problem Investigator)。它不是简单地搜索论文标题和摘要,而是阅读每个主题多达100篇全文PDF,产出有据可查的实验简报。每一条文献引用都绑定到具体的PDF段落,而不是模型参数记忆中的模糊印象。

阶段二:发现引擎(Discovery Engine)。采用分支搜索策略——每轮迭代保留Top-K分支,用新想法填充剩余槽位。关键创新:评估器分数、执行日志和消融实验结果全部作为源材料传递给下一阶段,而不是只传最终数字。

阶段三:论文写作与验证。这是最精巧的部分。写作本身分五步:构思→落地→批评→解决→组合。每一步都强制执行证据绑定——论文中的每个事实声明必须携带内联证据标签,绑定到具体的工作空间工件(日志行号、分数文件条目、引用键或消融结果)。然后Claim Verifier对每个声明进行确定性验证:报告的分数必须匹配发现阶段的最佳运行分数,基线必须可追溯到PI简报条目,每个引用的工件必须实际存在。

这就像给论文装了一个"来源追溯系统"——读者不仅能看到结论,还能点击每个声明看到它从哪来。

四项审计,全面碾压

CoE Integrity Audit设计了四项完整性检查,对75篇论文进行审计:

系统 分数验证 规范违反 引用完整性 方法-代码对齐
Sakana AI-Scientist v2 5/12 10/15 0/159 5/15
AutoResearchClaw 5/12 0/15 3/196 3/15
DeepScientist 11/12 0/15 42/201 5/15
AI-Researcher 9/12 1/15 21/222 12/15
ScientistOne 12/12 0/15 0/337 14/15

几个值得细看的数字:

  • 337条引用,零伪造。对比之下,DeepScientist的201条引用中有42条是幻觉,AI-Researcher的222条中有21条。AI-Researcher虽然方法-代码对齐度不错(12/15),但引用问题依然存在。
  • 分数验证12/12完美通过。这是最难的一项——要求论文声称的每个分数都能从代码执行中复现。Sakana和ARC都只有5/12。
  • 方法-代码对齐14/15。唯一一篇未通过的论文(cloudcast任务),论文描述了"混合神经符号求解器"和"LLM引导的进化搜索",但提交的代码只是简单的贪心搜索。这说明即使是ScientistOne,论文写作Agent偶尔也会"美化"方法描述。

更有意思的是失败模式的差异。AutoResearchClaw的方法-代码对齐只有3/15(20%),原因是其23阶段瀑布架构:代码生成和论文写作是两个完全断开的阶段,没有共享中间表示。论文写作Agent根据实验元数据发明算法名称,根本看不到求解器的实际逻辑——于是出现了"论文说用束搜索+Edmonds算法,代码实际是贪心边惩罚"这种荒诞场景。

通用性:不止于基准测试

ScientistOne还在6个额外任务上验证了通用性,覆盖医学影像、细粒度识别、3D感知和语言建模。在Parameter Golf上达到SOTA,在MLE-Bench上获得金牌——而基线系统在这些任务上完全失败。

这说明CoE框架不只是让论文更诚实,它实际上让科研更好。因为当你强制每个声明都有证据支撑时,系统被迫做更扎实的实验、写更精确的方法描述、引用更准确的文献。可验证性不是科研的负担,而是科研质量的驱动力

反直觉的发现

论文中有一个容易被忽略但极其重要的发现:可验证的论文在自动评审中得分更高。这不是因为它们写得更好看,而是因为科研质量的瓶颈在于研究本身的可靠性,而非写作能力。

换句话说,当你解决了"说的和做的一致"这个问题,论文质量自然就上去了。这就像一个餐厅:当后厨真的干净,前厅自然就不需要那么多装饰来掩盖。

局限与展望

论文诚实地承认了几个局限:审计覆盖面有限(只检查了四类声明,定性观察和理论性质需要人类专家判断);引用验证只检查存在性,不检查引用是否被正确解读;自动评审只是人类评审的代理指标。

但最大的启示不在这些技术细节里。它在于一个根本性的认知转变:AI科研的可信度不能靠"看起来像真的"来判断,必须靠"能追溯到证据"来保证。这和人类科研的演进路径如出一辙——从"权威说了算"到"实验可复现",我们花了几个世纪。AI科研正在以更快的速度重走这条路。

当AI学会自证清白,也许才是它真正值得信任的开始。


基于论文 ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence (Meng et al., 2026) 撰写。论文暂无开源代码,项目主页:https://scientist-one.github.io/

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录