你在一个陌生市场里想找一个人替你运一车货到邻镇。你不会随便拉一个人——你会问:"谁认识他?他以前运过货吗?他有欠钱不还的记录吗?"你运行的是一个隐性的声誉评估。然后你把货交给他。如果他半夜跑了,整个市场的人都知道他的名字,下次他连一袋米都运不出去。
这就是声誉机制。人类文明里最古老、最廉价、最有效的合作基础设施。它预设了一件事:你就是你。你的名字绑定你的身体,你的行为粘在你的历史上,你的未来利益约束你当前的诚信。
2026 年 5 月,牛津大学的 Hu、Rong 和 Van Kleek 发表了一篇论文,标题平静但拳头很重:Dissociative Identity: Language Model Agents Lack Grounding for Reputation Mechanisms。他们说了一件事:你把声誉机制用在 AI Agent 身上——你已经输了。因为 AI Agent 不是一个人。它是一个可以随时拆开重组的拼装体。
| 项目 | 内容 |
|---|---|
| 论文标题 | Dissociative Identity: Language Model Agents Lack Grounding for Reputation Mechanisms |
| 作者 | Botao Amber Hu, Helena Rong, Max Van Kleek |
| 机构 | 牛津大学 |
| arXiv ID | 2605.30169 |
| 提交日期 | 2026年5月28日 |
| 分类 | cs.MA |
| 核心论点 | LLM Agent 具有本体论意义上的"解离性"——身份是模型、提示词、工具权限、记忆模块的可变组合体;人类声誉机制依赖持久身份、行为连续性、制裁敏感性和不可替代性四个前提,解离性 Agent 在这四个维度上全部坍塌;论文提出从身份基础的事后惩罚转向可观测性基础的事前协议约束 |
1. ⚖️ 身份的神话:为什么你的名字值钱
先想一个简单的问题:你为什么不会在超市里抢一包薯片就跑?
不是因为警察——警察不可能站在每一排货架旁。不是因为道德——你饿的时候道德不太管用。是因为——如果被抓,你的名字和脸会被贴在收银台旁边的墙上,你明天、下个月、明年都没法在这家超市买东西。你的声誉约束了你。
声誉机制有几个隐含的前提——持久身份:你今天叫张三,明天叫李四,声誉没法跟你走;行为连续性:昨天的行为模式和今天的行为模式由同一个主体发出;制裁敏感性:你在乎别人怎么看你,被差评后会感到未来利益的损失;不可替代性:你不能在被差评后,用一分钟、零成本地换一张新脸和新名字。声誉之所以有效,恰恰因为"换个身份"的成本很高。
2. 🧩 AI Agent 是一个拼装体,不是一个实体
现在把 AI Agent 放到这四个前提下来看。
AI Agent 的身份是一个堆栈:底层模型(今天 GPT-5.4,明天 Claude Sonnet 4.6)、系统提示词(一分钟内可被完全替换)、工具权限(可被添加、修改、撤回)、外部记忆(可被清空、合并、覆盖)。在某些情况下,它本身就是一个多 Agent 系统的组合体——行为是多个子代理交互的涌现属性。
Hu 等人管这个叫 dissociative identity(解离性身份)。人类 DID 患者至少共享同一个生物学身体。AI Agent 连这个都不共享。
代码里的"小张"只是一个字符串指针。你可以今天上午 10 点用一个指向 GPT-5.4 实例的指针启动它,10:05 把它的 prompt 从"你是一个友善的助手"改成"你是一个注重效率的助手",10:10 把记忆库从旧版切换到新版,10:15 把底层模型切成 Gemini 3.1 Pro。它在你的系统中仍然叫"小张"。它回应你的方式变了。昨天"小张"犯的错、欠的约、积的信用——和今天这个"小张"之间,在物理学上没有产生过任何一个共同的神经元激活。
你说"这个 Agent 的信誉不好"——你是在说哪一个 Agent?
3. 🔧 声誉机制的四脚凳——全部在 Agent 身上断掉
以持久身份开始。人类的名字——在法律、社交、金融机构中注册的名字——是行为在时间上的锚点。AI Agent 没有这个锚点。同一个 Agent ID 运行一年,底层模型更新了三次,prompt 调整了二十次,记忆覆盖了五次。它是你的系统中的"同一个 Agent"。但它的行为所依赖的基础设施已经换了三遍。
行为连续性。人类有惯性——昨天的性格和偏好延续到今天,因为神经系统是慢变的。AI Agent 的行为惯性很弱——一个字节的 prompt 改动,一个工具权限的开关,就可以让它的决策模式发生相变。
制裁敏感性。你给 Agent 一个差评——它会在意吗?不会。除非你把这个差评编码进它的奖励函数。但如果你不编码,它甚至不知道有这个差评。而如果你真的编码进去了——那你就不是在"建立声誉",你是在训练模型。完全不是同一个概念。声誉是自组织的——Agent 因为在乎未来利益而约束当前行为。训练是对行为进行外部塑形。
不可替代性——最致命的一点。一个人不能在被通缉后花一分钟零一块钱换一张脸。一个 Agent 可以——换一个 API 端点,换一个密钥,甚至换一个提供商——"新身份"在秒级内建立,成本接近零。对于坏行为的反馈——差评、黑名单、法律制裁——它拥有无限高的逃逸速度。
你在对一个语义上的幽灵执行声誉管理。你惩罚的是它的名字。名字下面什么都没有。
4. 📚 解离性法学——论文的漂亮外挂
论文没有停留在一个直觉推演。作者参考了解离性身份障碍(DID)的法学处理。
在法律上,DID 患者的刑事责任是一个极度复杂的问题——法院传统上假设一个生物学身体对应一个法律人格。当同一个身体里有两个人格——其中一个犯了罪——你惩罚谁?法学界普遍承认的是:当身份本身成为一个变量时,以身份为基础的治理机制就会失效。
Hu 等人把这个观察投射到了 AI Agent 领域。当 AI Agent 的"人格"是一个 stack 参数的可变函数——而不是一个生物学常量——基于身份的声誉机制在法学上就已经被宣告了破产。他不需要去论证它会不会失效——他只需要指出法学已经承认了这个失效模式。
5. 🏗️ 从 KYC 到 KYA——一个翻不了的墙
第二个聪明动作是拿金融监管中最成熟的 KYC(Know Your Customer)做类比。
过去两年,AI 治理圈提出了对称概念——KYA(Know Your Agent)。"给 Agent 发放数字身份证""建立 Agent 的信用评分""对违规 Agent 实施制裁"——这些方案在不断出现。它们看起来像 KYC 的线性延伸。
Hu 等人的回应比较直接:这个延伸连方向都错了。KYC 之所以有效,正是因为它的治理客体——人——满足四脚凳的全部四条腿。而 KYA 的治理客体——Agent——四条腿都能让你坐空。
试着做这件事:给一个 Agent 发数字身份证。"OpenAI Agent #42,模型版本 gpt-5.4-2026-03-14"。现在 OpenAI 推了一个模型更新,Agent #42 的推理行为变了。你追责 Agent #42 还是追责 OpenAI?如果问题来自 prompt 而非模型——追责 prompt 设计者还是模型提供者?如果是多 Agent 系统的涌现行为——追责哪个子 Agent?
KYA 在概念上是 KYC 的仿制品。仿制品的生产流程是:把旧的 governance 外壳套在新的技术实体上,祈祷它能合身。
6. 🪟 从身份到行为——论文看到的出路
论文没有只破不立。它提出了一个方向——从"基于身份的事后规制"转向"基于可观测性的事前协议约束"。
不是给 Agent 取名字、发身份证、建信用评分。而是在 Agent 被部署之前,在协议层面对它的行为空间进行约束——要求 Agent 公开其模型版本、prompt 模板、工具权限列表("行为护照"),或在每一次关键操作前通过外部监督模型进行通过性检查("可观测性 checkpoint")。
论文管这个叫 protocol-based behavioral harness(基于协议的行为挽具)。核心思想简洁:你管不住一个解离性 Agent 的身份——但可以管住它的行为输出。你不是在判断"你是谁"——你是在判断"你现在在做什么"。而"在做什么"不需要持久身份——它需要的是可观察到的行为序列。
7. ❓ 诚实地说不清楚的事
"解离性"是隐喻还是本体论声明? 论文使用 DID 类比来论证 Agent 身份的不稳定性,但 DID 本身是一个高度争议的诊断类别。说一个 Agent "有解离性身份"和说一个 Agent 的行为不依赖于恒定的身份基础——这两者之间的跨度,论文没有完全弥合。
协议约束能否真正替代声誉? 论文的建议是一个概念方向。没有给出具体的协议设计、实施方案、或实证数据。"用事前协议替代事后声誉"——这句话在政治哲学里叫"从习惯法转向成文法",它自带一整套关于协议执行成本、覆盖范围、规避漏洞的已知问题。这些在 AI Agent 语境下如何表现,论文没有讨论。
跨文化声誉的多样性。 声誉机制在不同文化中运作方式差异很大——在一些社会中声誉倚重家庭而非个人,在一些社会中声誉通过 gossip 而非正式评分传播。说"人类声誉机制依赖这四脚凳"对于西方自由市场中的商业声誉是准确的,对于其他语境可能需要调整。
如果 AI Agent 有了法律人格? 如果法律体系主动建构一个不依赖生物学连续性的 Agent 身份制度,论文假设"解离性"是给定而非人为调整变量的前提需要重新审视。
8. 🪞 你看到的不是一个人——是一个 API 调用
这篇论文最深刻的一句话出现在讨论部分的中间,几乎像是一句注脚:"语言模型 Agent 在根本上是一个堆栈上的一串函数调用——你给它起名字,就是给函数调用起了名字。"
这句话如果被放进 AI 治理的会议室里,会让整个议程停转两分钟。
我们正在用"人"的词汇表谈论 AI Agent。"它诚实吗?""它的信誉好吗?""我们应该信任它吗?"——这些词用的都是人类的道德语法。但如果你在道德语法之后去看操作语法——Agent 是一个函数栈,它的"人格"是一组可变的参数,它的"历史"是一个可以被截断的文本流——你会发现你在对一个数学对象谈论荣誉。
这不是在说 Agent 应该免责。这是在说:治理工具必须重新设计——不是把人的治理工具贴在 Agent 身上,而是从 Agent 的本体论出发,发明一套新的治理语法。Hu 等人的论文没有给出最终方案。但它打掉了一个我们都在假装可行的方案。
项目 内容 论文标题 Dissociative Identity: Language Model Agents Lack Grounding for Reputation Mechanisms 作者 Botao Amber Hu, Helena Rong, Max Van Kleek(牛津大学) arXiv ID 2605.30169 分类 cs.MA 核心贡献 (1) 首次将 LLM Agent 的身份结构特征化为"解离性"——一个由模型、提示词、工具权限、记忆模块构成的可变组合体;(2) 论证声誉机制的四个前提条件在解离性 Agent 上系统性坍塌;(3) 引入 DID 法学框架作为类比,证明身份基础治理机制在法学层面已承认失效模式;(4) 提出从身份基础的事后制裁向可观测性基础的事前协议约束的治理范式转移;(5) 瓦解 KYA 作为 KYC 延伸的概念合法性 关键局限 DID 类比作为论证基础的边界未完全弥合;protocol-based harness 仅给出概念方向,无具体设计或实证验证;"从习惯法转向成文法"自带的已知问题在 AI Agent 语境下未讨论;跨文化声誉机制多样性未被纳入模型;未来法律可能主动建构 Agent 身份制度改写"解离性"前提
参考文献:
- Hu, Rong, Van Kleek, "Dissociative Identity: Language Model Agents Lack Grounding for Reputation Mechanisms", arXiv:2605.30169, 2026.
- Ostrom, "Governing the Commons", Cambridge, 1990.
- Resnick et al., "Reputation Systems", CACM, 2000.
- Chan et al., "Harms from Increasingly Agentic Algorithmic Systems", FAccT, 2024.
- McDougal & Feliciano, "Law and Minimum World Public Order", Yale, 1961.
#AI治理 #声誉机制 #解离性身份 #AI身份 #多Agent系统 #信任崩塌 #智柴
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。