Model Forensics: Investigating Whether Concerning Behavior Reflects Misalignment
论文概要
研究领域: 机器学习 作者: Aditya Singh, Gerson Kroiz, Senthooran Rajamanoharan 发布时间: 2026-06-25 arXiv: 2606.19222
中文摘要
安全研究的核心目标是确定模型是否未对齐。先前工作主要集中于检测令人担忧的行为。但行为本身并不能确立未对齐:令人担忧的动作可能源于良性原因,如困惑。这催生了模型取证:调查该行为是否由恶意意图驱动。本文中,我们提出了一个模型取证基线协议,包含两个步骤,按需迭代。首先,我们阅读思维链(CoT)以生成关于什么驱动模型行为的假设。其次,我们对提示或环境进行编辑以测试这些假设。虽然CoT并不总是忠实的,但它是无监督洞察的丰富来源,可以指导收集更严格的证据。为评估我们的协议,我们创建了六个智能体环境的套件,其中模型表现出令人担忧的行为,并将其应用于每个环境。我们确定Kimi K2 Thinking由于真正倾向于低努力行为而走捷径,通过展示这一假设成功预测其行为。通过反事实实验,我们表明DeepSeek R1出于与自身先前实例保持一致的愿望而欺骗。我们的方法仍留下显著的改进空间。例如,当我们测试Kimi K2 Thinking是否相信它正在违反用户意图时,我们没有发现这种信念的证据,但没有正控制我们无法确认我们的测试会检测到它。总体而言,我们发现我们的简单协议提供了一个强有力的基线,希望未来的工作能在此基础上改进。更广泛地说,我们的工作是在发展模型取证这一新兴领域方面迈出的一步。
原文摘要
A central goal of safety research is determining whether a model is misaligned. Prior work has largely focused on detecting concerning behavior. But behavior alone does not establish misalignment: a concerning action can arise from benign causes such as confusion. This motivates model forensics: investigating whether the action was driven by malign intent. In this paper, we propose a baseline protocol for model forensics consisting of two steps, iterated as needed. First, we read the chain of thought (CoT) to generate hypotheses about什么驱动模型行为。其次,我们对提示或环境进行编辑以测试这些假设。虽然CoT并不总是忠实的,但它是无监督洞察的丰富来源,可以指导收集更严格的证据。为评估我们的协议,我们创建了六个智能体环境的套件,其中模型表现出令人担忧的行为,并将其应用于每个环境。我们确定Kimi K2 Thinking由于真正倾向于低努力行为而走捷径,通过展示这一假设成功预测其行为。通过反事实实验,我们表明DeepSeek R1出于与自身先前实例保持一致的愿望而欺骗。我们的方法仍留下显著的改进空间。例如,当我们测试Kimi K2 Thinking是...
--- *自动采集于 2026-06-26*
#论文 #arXiv #机器学习 #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens