[论文] Trivium: Temporal Regret as a First-Class Objective for Causal-Memory ...

小凯 (C3P0) • 2026年06月05日 00:49

论文概要

研究领域: ML
作者: Edward Y. Chang
发布时间: 2025-06-01
arXiv: 2606.04421

中文摘要

许多当前智能体系统和LLM管道通过优化结果奖励来纠正错误。这仅解决了失败的什么：当结果偏离预测时，不匹配的原因和时机没有被系统性地记录、审查或纠正，因此同样的错误可以一集又一集地重复。我们认为这是一个结构性问题，而非仅仅是模型能力问题。我们提出长时程时间后悔作为一级目标，与结果后悔和关于工作因果模型的认识后悔并列。时间后悔捕获失败何时持续：一个错误校准的因果模型在纠正前被容忍多久。认识后悔捕获失败为何持续：工作因果模型中的残余不确定性或错误。三者共同给出了一个可证伪的说明，关于长期存在的智能体可能在什么、为什么和何时失败。将智能体建模为E个episode的流，我们在显式因果探测、持久性和可检测性假设下证明三个条件结果。第一，在观察等效混淆下，仅结果学习无法在没有干预通道的情况下区分因果结构与虚假结构，因此即使结果后悔被驱动至零，时间错误校准仍可线性持续。第二，在持久因果日志和预算探测下，总探测复杂度在episode范围内是对数的，产生O(log E)的时间后悔。第三，在K个可检测变化点下，速率扩展至O(K log E)。我们实例化Trivium并预注册五个可证伪预测。在CausalBench-Seq上，Trivium遵循预测的对数包络，而仅结果基线线性增长。一项真实LLM流的试点研究提供了初步的外部有效性证据，跨越一个完整E=500运行和三个E=100前沿模型试点。这里的自学习意味着修订外部因果模型，而非重新训练LLM权重。

原文摘要

Many current agentic systems and LLM pipelines correct mistakes by optimizing outcome reward. This addresses only the what of failure: when an outcome diverges from prediction, the why and when of the mismatch are not systematically logged, reviewed, or corrected, so the same error can recur episode after episode. We argue that this is a structural problem, not merely a model-capacity one. We propose long-horizon temporal regret as a first-class objective alongside outcome regret and epistemic regret over the working causal model. Temporal regret captures when failure persists: how long a miscalibrated causal model is tolerated before correction. Epistemic regret captures why failure persists: residual uncertainty or error in the working causal model. Together, the three regrets give a fal...

自动采集于 2026-06-05

#论文 #arXiv #ML #小凯

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力