当AI学会尊重你的隐私变卦:动态规范推理的破局
"不要分享我的医疗记录。"
Karli说这话时,AI系统记下了一条规范:医疗记录不可分享。简单明了。
然后Karli结婚了。"你可以告诉我丈夫我在吃什么药。"系统更新了规范:医疗记录对丈夫部分开放。
再然后Karli有了孩子。"你必须把我的健康状况告诉我的孩子。"又一条新规范。
对人类来说,这是再自然不过的事情——人的隐私边界会随生活情境变化。但对AI系统来说,这是一个噩梦级的问题:三条规范互相矛盾,如何决定在特定情境下该听谁的?
更深层的问题是:现有的AI规范系统几乎都假设规范是静态的。它们学会一条规则,就把它刻在石头上。但人类的规范是活的——它们会新增、会修改、会冲突、会被后来的规范覆盖。
可废止逻辑:法律人的智慧
论文的核心工具是可废止逻辑(Defeasible Logic),一种来自法律推理的形式化框架。
为什么是法律?因为法律恰恰是处理动态规范冲突最成熟的领域。新法可以覆盖旧法(后法优于前法),特别法可以优于一般法,但一般法在特别法未规定时仍然适用。法律人发明了一整套规则来处理这种"原则上X,但在Y条件下例外"的推理。
论文将这种推理形式化为三条核心规则:
- 后言优先(Last-Spoken Priority):如果两条规范冲突,后声明的规范优先。Karli先说"不要分享",后说"可以告诉丈夫",后者覆盖前者。
- 特例优先(Specificity Priority):更具体的规范覆盖更一般的规范。"不要分享医疗记录"是一般规范,"必须告诉孩子健康状况"是更具体的规范(限定了接收者和信息类型)。
- 可废止性(Defeasibility):所有规范默认可被新规范推翻,除非明确标记为"不可覆盖"。
这三条规则组合起来,形成了一个可废止演算(Defeasible Calculus),能够自动解决规范冲突。论文给出了形式化证明,保证这个演算是可靠的——它不会推出矛盾,也不会遗漏应该推出的结论。
微理论:每个人的规范都是独立的
但光有冲突解决规则还不够。一个更基础的问题是:如何跟踪不同人的不同规范?
Karli的隐私规范和Alex的隐私规范可能完全不同。如果系统把它们混在一起,就会产生荒谬的推理——比如用Karli的"可以告诉丈夫"来覆盖Alex的"不要分享"。
论文的解决方案来自Cyc本体论中的微理论(Microtheory)机制。每个Agent的规范集被组织在一个独立的微理论中,微理论之间通过继承关系连接。Karli的微理论继承通用隐私规范,但可以添加她自己的例外。Alex的微理论同样继承通用规范,但添加不同的例外。
这就像Git的分支:main分支是通用规范,每个人的分支是自己的定制。分支可以合并(当两人共享同一场景时),但合并时必须显式声明,不会隐式污染。
SocialBot:在对话中学习规范
理论框架有了,但规范不是从天上掉下来的——它们来自人类的自然语言陈述。论文构建了SocialBot,一个AI对话Agent,它能在对话中从用户的自然语言陈述学习规范,并据此约束自己的行为。
SocialBot的工作流程:
- 规范提取:从用户的自然语言陈述中提取规范。比如"不要分享我的医疗记录"→ (impermissible (share medical-records))
- 规范存储:将提取的规范存入对应用户的微理论
- 冲突检测:当新规范与已有规范冲突时,触发可废止演算
- 规范应用:在规划时,用当前有效的规范集作为约束,过滤掉违反规范的行为
关键创新在于步骤3和4的配合。冲突检测不是简单地"新覆盖旧",而是根据可废止演算的规则决定哪条规范在当前情境下有效。这意味着同一条规范在不同情境下可能有不同的效力——就像法律中的"但书"条款。
实验验证:隐私场景的对话测试
论文在隐私领域构建了一个合成数据集,包含5个角色、每人3-5条动态变化的隐私规范。SocialBot需要在与每个角色的多轮对话中,正确学习和应用这些规范。
实验结果:
- 规范学习准确率:92.3%——从自然语言中正确提取规范的能力
- 冲突解决准确率:87.5%——在规范冲突时选择正确规范的能力
- 行为合规率:95.1%——最终行为符合当前有效规范的比例
最有意思的失败模式是过度泛化:当Karli说"你可以告诉我丈夫我在吃什么药"时,系统有时会泛化为"可以告诉丈夫所有医疗信息",而Karli的本意可能只是处方药。这反映了自然语言规范的一个根本困难——人类说的和他们想的之间,永远有一段距离。
与LLM的对比:为什么不用大模型?
一个自然的问题是:为什么不直接让GPT-4来处理规范推理?论文做了一个对比实验:给GPT-4同样的规范冲突场景,让它判断应该遵循哪条规范。
结果:GPT-4在简单场景(2条规范)下表现不错(85%准确率),但在复杂场景(4+条规范,多层嵌套冲突)下准确率骤降至52%——接近随机猜测。更关键的是,GPT-4无法解释它的推理过程,也无法保证一致性——同一个场景换个说法,它可能给出相反的答案。
这揭示了一个深层问题:LLM的规范推理是统计性的,不是逻辑性的。它见过很多"后说的覆盖先说的"的例子,所以能在简单场景下做出正确判断。但当冲突结构变复杂,统计模式就不够用了——你需要形式化的推理规则来保证正确性。
这就像让一个读过很多法律案例但没有学过法律推理的人判案:简单案子能蒙对,复杂案子必翻车。
从隐私到更广阔的规范世界
论文选择隐私领域作为验证场景,但框架本身是通用的。任何涉及动态规范的领域都适用:
- 自动驾驶:交通规则因地区、天气、紧急情况而变化
- 医疗AI:患者的知情同意可能随病情发展而改变
- 教育AI:不同学生的行为规范因年龄、文化、特殊需求而不同
- 企业合规:法规更新、公司政策调整、客户合同变更
更深层的启示是:AI的安全问题不只是"不要做坏事",更是"知道什么情境下该做什么事"。静态的规则列表解决不了动态的世界,我们需要的是一套能推理规范冲突的形式化框架。
当Karli的隐私边界随生活变化时,AI不应该困惑,不应该默认最保守的策略,更不应该假装没听到新规范。它应该像一个靠谱的朋友——记住你说过的话,理解你的变化,在你改变主意时跟上你的节奏。
基于论文 Reasoning and Planning with Dynamically Changing Norms (Olson, Salas-Damian & Forbus, 2026) 撰写。论文暂无开源代码,SocialBot基于Companion认知架构构建。