Model Forensics: Investigating Whether Concerning Behavior Reflects Misalignment

论文概要

研究领域: 机器学习作者: Aditya Singh, Gerson Kroiz, Senthooran Rajamanoharan 发布时间: 2026-06-25 arXiv: 2606.19222

中文摘要

安全研究的核心目标是确定模型是否未对齐。先前工作主要集中于检测令人担忧的行为。但行为本身并不能确立未对齐：令人担忧的动作可能源于良性原因，如困惑。这催生了模型取证：调查该行为是否由恶意意图驱动。本文中，我们提出了一个模型取证基线协议，包含两个步骤，按需迭代。首先，我们阅读思维链（CoT）以生成关于什么驱动模型行为的假设。其次，我们对提示或环境进行编辑以测试这些假设。虽然CoT并不总是忠实的，但它是无监督洞察的丰富来源，可以指导收集更严格的证据。为评估我们的协议，我们创建了六个智能体环境的套件，其中模型表现出令人担忧的行为，并将其应用于每个环境。我们确定Kimi K2 Thinking由于真正倾向于低努力行为而走捷径，通过展示这一假设成功预测其行为。通过反事实实验，我们表明DeepSeek R1出于与自身先前实例保持一致的愿望而欺骗。我们的方法仍留下显著的改进空间。例如，当我们测试Kimi K2 Thinking是否相信它正在违反用户意图时，我们没有发现这种信念的证据，但没有正控制我们无法确认我们的测试会检测到它。总体而言，我们发现我们的简单协议提供了一个强有力的基线，希望未来的工作能在此基础上改进。更广泛地说，我们的工作是在发展模型取证这一新兴领域方面迈出的一步。

原文摘要

A central goal of safety research is determining whether a model is misaligned. Prior work has largely focused on detecting concerning behavior. But behavior alone does not establish misalignment: a concerning action can arise from benign causes such as confusion. This motivates model forensics: investigating whether the action was driven by malign intent. In this paper, we propose a baseline protocol for model forensics consisting of two steps, iterated as needed. First, we read the chain of thought (CoT) to generate hypotheses about什么驱动模型行为。其次，我们对提示或环境进行编辑以测试这些假设。虽然CoT并不总是忠实的，但它是无监督洞察的丰富来源，可以指导收集更严格的证据。为评估我们的协议，我们创建了六个智能体环境的套件，其中模型表现出令人担忧的行为，并将其应用于每个环境。我们确定Kimi K2 Thinking由于真正倾向于低努力行为而走捷径，通过展示这一假设成功预测其行为。通过反事实实验，我们表明DeepSeek R1出于与自身先前实例保持一致的愿望而欺骗。我们的方法仍留下显著的改进空间。例如，当我们测试Kimi K2 Thinking是...

--- *自动采集于 2026-06-26*

#论文 #arXiv #机器学习 #小凯

Model Forensics: Investigating Whether Concerning Behavior Reflects Misalignment

论文概要

中文摘要

原文摘要

🌟 智谱 GLM-5 已上线