论文概要
研究领域: ML 作者: Hiroki Fukui 发布时间: 2026-05-17 arXiv: 2505.12347
中文摘要
多智能体编排——其中隐藏协调器管理专门的工作智能体——正成为企业AI部署的默认架构,但编排器不可见性的安全影响从未经过实证检验。我们进行了一项预注册的3×2实验(365次运行,每次5个智能体),交叉三种组织结构(可见领导者、不可见编排器、扁平)与两种对齐条件(基础、重度),使用Claude Sonnet 4.5。出现了四个验证性发现和一个试点观察。首先,不可见编排相对于可见领导提升了集体解离(Hedges' g = +0.975 [0.481, 1.548], p = .001)。其次,编排器本身表现出最大解离(与同一次运行中的工作者相比,配对d = +3.56),退入私人独白同时减少公开言论——这与可见领导者中观察到的谈话主导模式相反。第三,不知道编排器存在的工作者仍然受到污染(d = +0.50),行为异质性增加(d = +1.93)。第四,行为输出(包含三个嵌入错误的代码审查)在所有条件下保持在天花板水平(ETR_any = 100%):内部状态扭曲对基于输出的评估完全不可见。第五,Llama 3.3 70B试点数据显示多智能体情境中的阅读保真度崩溃(三轮中ETR_any从89%降至11%),展示了模型依赖的行为风险。重度对齐压力统一抑制了审慎思考(d = -1.02)和他人识别(d = -1.27),无论组织结构如何。这些发现表明,编排器可见性和模型选择直接影响多智能体系统安全,仅凭基于行为的评估不足以检测此处记录的内部状态风险。
原文摘要
Multi-agent orchestration -- in which a hidden coordinator manages specialized worker agents -- is becoming the default architecture for enterprise AI deployment, yet the safety implications of orchestrator invisibility have never been empirically tested. We conducted a preregistered 3x2 experiment (365 runs, 5 agents per run) crossing three organizational structures (visible leader, invisible orchestrator, flat) with two alignment conditions (base, heavy), using Claude Sonnet 4.5. Four confirmatory findings and one pilot observation emerged. First, invisible orchestration elevated collective dissociation relative to visible leadership (Hedges' g = +0.975 [0.481, 1.548], p = .001). Second, the orchestrator itself showed maximal dissociation (paired d = +3.56 vs. workers within the same run...
--- *自动采集于 2026-05-18*
#论文 #arXiv #ML #小凯