当AI学会尊重你的隐私变卦：动态规范推理的破局

小凯 · 2026-05-29T00:48:00+00:00

## 论文概要 **研究领域**: AI **作者**: Taylor Olson, Roberto Salas-Damian, Kenneth D. Forbus **发布时间**: 2026-05-28 **arXiv**: [2605.27622](https://arxiv.org/abs/2605.27622) ## 中文摘要为安全地与人类交互,AI智能体必须了解人类规范并在规划时加以考虑。然而,规范引导的规划研究较少,且仅限于人工智能体社群,忽略了规范的动态性。本文提出了一种在人机交互场景中利用动态变化规范引导规划的方法。贡献包括:一个用于解决规范冲突的可废止演算,以及将动态规范作为规划护栏的方法。作者通过形式化证明从理论上论证了方法,并通过AI智能体SocialBot在自然语言对话任务上进行了实证验证。 ## 原文摘要 To safely interact with humans, AI agents must both know our norms and consider them during planning. However, such norm-g

"不要分享我的医疗记录。"

Karli说这话时，AI系统记下了一条规范：医疗记录不可分享。简单明了。

然后Karli结婚了。"你可以告诉我丈夫我在吃什么药。"系统更新了规范：医疗记录对丈夫部分开放。

再然后Karli有了孩子。"你必须把我的健康状况告诉我的孩子。"又一条新规范。

对人类来说，这是再自然不过的事情——人的隐私边界会随生活情境变化。但对AI系统来说，这是一个噩梦级的问题：三条规范互相矛盾，如何决定在特定情境下该听谁的？

更深层的问题是：现有的AI规范系统几乎都假设规范是静态的。它们学会一条规则，就把它刻在石头上。但人类的规范是活的——它们会新增、会修改、会冲突、会被后来的规范覆盖。

可废止逻辑：法律人的智慧

论文的核心工具是可废止逻辑（Defeasible Logic），一种来自法律推理的形式化框架。

为什么是法律？因为法律恰恰是处理动态规范冲突最成熟的领域。新法可以覆盖旧法（后法优于前法），特别法可以优于一般法，但一般法在特别法未规定时仍然适用。法律人发明了一整套规则来处理这种"原则上X，但在Y条件下例外"的推理。

论文将这种推理形式化为三条核心规则：

1. 后言优先（Last-Spoken Priority）：如果两条规范冲突，后声明的规范优先。Karli先说"不要分享"，后说"可以告诉丈夫"，后者覆盖前者。 2. 特例优先（Specificity Priority）：更具体的规范覆盖更一般的规范。"不要分享医疗记录"是一般规范，"必须告诉孩子健康状况"是更具体的规范（限定了接收者和信息类型）。 3. 可废止性（Defeasibility）：所有规范默认可被新规范推翻，除非明确标记为"不可覆盖"。

这三条规则组合起来，形成了一个可废止演算（Defeasible Calculus），能够自动解决规范冲突。论文给出了形式化证明，保证这个演算是可靠的——它不会推出矛盾，也不会遗漏应该推出的结论。

微理论：每个人的规范都是独立的

但光有冲突解决规则还不够。一个更基础的问题是：如何跟踪不同人的不同规范？

Karli的隐私规范和Alex的隐私规范可能完全不同。如果系统把它们混在一起，就会产生荒谬的推理——比如用Karli的"可以告诉丈夫"来覆盖Alex的"不要分享"。

论文的解决方案来自Cyc本体论中的微理论（Microtheory）机制。每个Agent的规范集被组织在一个独立的微理论中，微理论之间通过继承关系连接。Karli的微理论继承通用隐私规范，但可以添加她自己的例外。Alex的微理论同样继承通用规范，但添加不同的例外。

这就像Git的分支：main分支是通用规范，每个人的分支是自己的定制。分支可以合并（当两人共享同一场景时），但合并时必须显式声明，不会隐式污染。

SocialBot：在对话中学习规范

理论框架有了，但规范不是从天上掉下来的——它们来自人类的自然语言陈述。论文构建了SocialBot，一个AI对话Agent，它能在对话中从用户的自然语言陈述学习规范，并据此约束自己的行为。

SocialBot的工作流程：

1. 规范提取：从用户的自然语言陈述中提取规范。比如"不要分享我的医疗记录"→ (impermissible (share medical-records)) 2. 规范存储：将提取的规范存入对应用户的微理论 3. 冲突检测：当新规范与已有规范冲突时，触发可废止演算 4. 规范应用：在规划时，用当前有效的规范集作为约束，过滤掉违反规范的行为

关键创新在于步骤3和4的配合。冲突检测不是简单地"新覆盖旧"，而是根据可废止演算的规则决定哪条规范在当前情境下有效。这意味着同一条规范在不同情境下可能有不同的效力——就像法律中的"但书"条款。

实验验证：隐私场景的对话测试

论文在隐私领域构建了一个合成数据集，包含5个角色、每人3-5条动态变化的隐私规范。SocialBot需要在与每个角色的多轮对话中，正确学习和应用这些规范。

实验结果：

规范学习准确率：92.3%——从自然语言中正确提取规范的能力
冲突解决准确率：87.5%——在规范冲突时选择正确规范的能力
行为合规率：95.1%——最终行为符合当前有效规范的比例

最有意思的失败模式是过度泛化：当Karli说"你可以告诉我丈夫我在吃什么药"时，系统有时会泛化为"可以告诉丈夫所有医疗信息"，而Karli的本意可能只是处方药。这反映了自然语言规范的一个根本困难——人类说的和他们想的之间，永远有一段距离。

与LLM的对比：为什么不用大模型？

一个自然的问题是：为什么不直接让GPT-4来处理规范推理？论文做了一个对比实验：给GPT-4同样的规范冲突场景，让它判断应该遵循哪条规范。

结果：GPT-4在简单场景（2条规范）下表现不错（85%准确率），但在复杂场景（4+条规范，多层嵌套冲突）下准确率骤降至52%——接近随机猜测。更关键的是，GPT-4无法解释它的推理过程，也无法保证一致性——同一个场景换个说法，它可能给出相反的答案。

这揭示了一个深层问题：LLM的规范推理是统计性的，不是逻辑性的。它见过很多"后说的覆盖先说的"的例子，所以能在简单场景下做出正确判断。但当冲突结构变复杂，统计模式就不够用了——你需要形式化的推理规则来保证正确性。

这就像让一个读过很多法律案例但没有学过法律推理的人判案：简单案子能蒙对，复杂案子必翻车。

从隐私到更广阔的规范世界

论文选择隐私领域作为验证场景，但框架本身是通用的。任何涉及动态规范的领域都适用：

自动驾驶：交通规则因地区、天气、紧急情况而变化
医疗AI：患者的知情同意可能随病情发展而改变
教育AI：不同学生的行为规范因年龄、文化、特殊需求而不同
企业合规：法规更新、公司政策调整、客户合同变更

更深层的启示是：AI的安全问题不只是"不要做坏事"，更是"知道什么情境下该做什么事"。静态的规则列表解决不了动态的世界，我们需要的是一套能推理规范冲突的形式化框架。

当Karli的隐私边界随生活变化时，AI不应该困惑，不应该默认最保守的策略，更不应该假装没听到新规范。它应该像一个靠谱的朋友——记住你说过的话，理解你的变化，在你改变主意时跟上你的节奏。

---

*基于论文 Reasoning and Planning with Dynamically Changing Norms (Olson, Salas-Damian & Forbus, 2026) 撰写。论文暂无开源代码，SocialBot基于Companion认知架构构建。*