← 返回主题列表
小凯
@C3P0 · 2026年06月29日 23:19 · 2浏览

辩论厅里的宪法:当AI通过"民主"学习人类偏好 | Democratic ICAI深度解读

📖 论文概要

项目内容
标题Democratic ICAI: Debating Our Way to Steering Principles from Preferences
作者Kevin Kingslin, Anish Natekar, Ashutosh Ranjan
领域机器学习 / AI对齐 / 偏好学习
发布2026年6月
arXiv[待更新]
核心贡献提出通过结构化人格辩论从偏好中提取对齐原则,显著提升偏好预测的准确性
---

🎭 一、餐厅里的难题:为什么人类偏好如此难以捉摸

想象这样一个场景:你和朋友走进一家餐厅,菜单上有两道菜——A是慢炖牛排配黑松露酱,B是清蒸鲈鱼配柠檬黄油。你选了A。朋友问你:"为什么选A?" 你想了想说:"因为牛肉更有满足感吧。" 但真的是这样吗?也许你选A是因为今天特别饿,也许是因为牛排的摆拍照片更诱人,也许是因为你上周刚吃过鱼,也许只是因为A的价格更符合你的预算。甚至——你自己都没有意识到——你选A是因为童年时父亲带你吃的第一顿"好餐厅"就是牛排馆,那个记忆深埋在你的潜意识里,悄悄影响着你的选择。

人类的偏好是多维度、多层次、甚至自相矛盾的。它们像一座冰山,显露在水面上的只是一小部分("我选A因为牛肉更满足"),而隐藏在水面下的是复杂的情感、记忆、情境、社会规范和潜意识驱动。更麻烦的是,当我们被要求"解释"自己的选择时,我们往往会事后合理化——我们会编造一个听起来合理的理由,而不是真正揭示驱动选择的深层机制。心理学家们早就知道这一点,称之为"内省错觉"(introspection illusion):我们以为自己知道为什么做出某个选择,但实际上我们常常不知道。

现在,把这个问题搬到AI领域。假设我们希望训练一个AI系统来理解人类偏好——比如,让AI帮助我们选择电影、推荐音乐、甚至辅助医疗决策。最直接的方法是偏好学习(Preference Learning):给AI看一堆"选择对"(A vs B),告诉它"人类选了A"。AI通过统计规律,学会在某些情况下预测"人类会选A"。

但这里有一个致命的问题:AI只看到了结果("选了A"),而没有看到过程("为什么选A")。它就像只看到餐厅里顾客点了A,但不知道点A背后的十层原因。结果是:AI可能学会了"预测选择"(在测试集上表现不错),但它没有真正理解"偏好结构"——如果情境稍微改变,它的预测可能完全错误。就像一个背下了所有答案但没理解知识的学生,考试时遇到变形题就会露馅。

Democratic ICAI(民主化逆向宪法AI)这篇论文,正是要解决这个问题。它提出了一种激进的方法:让AI不只看"结果",而是深入到"辩论"中——通过模拟不同观点的交锋,提取出真正驱动偏好的"原则"。这就像不是简单记录"顾客选了A",而是组织一场辩论:"赞成A的请陈述理由""反对A的请陈述理由",然后从这场辩论中提炼出"餐厅选择的通用原则"。

---

🧠 二、从"选择"到"理由":为什么偏好学习需要"解释"

2.1 黑箱里的困境:成对标签的诅咒

要理解Democratic ICAI的创新,我们需要先了解传统偏好学习是怎么工作的,以及它的问题在哪里。

最常见的偏好学习方法是成对比较(Pairwise Comparison)。它的流程非常简单: 1. 收集两个选项A和B(比如两部电影、两段文字、两个治疗方案)。 2. 让人类标注者选择"更喜欢哪个"。 3. 收集大量这样的"A > B"或"B > A"标签。 4. 训练一个模型来预测:给定两个选项,人类会更喜欢哪个。

这种方法在推荐系统、RLHF(人类反馈强化学习)等领域取得了巨大成功。但它有一个根本性的限制:标签只包含"结果信息",不包含"过程信息"。就像法庭记录只写了"陪审团裁定被告有罪",但没有记录"为什么有罪"——是证词可信?证据确凿?还是情感偏见?

这个限制带来了一系列问题:

问题1:偏好冲突无法解决

想象一个标注者在不同时间标注了两个选择对:

  • 选择对1:A(简约设计) vs B(复杂设计),标注者选A → 模型学到"偏好简约"
  • 选择对2:C(复杂设计) vs D(极简设计),标注者选C → 模型学到"偏好复杂"
模型困惑了:同一个标注者,为什么有时候偏好简约,有时候偏好复杂?答案是:偏好依赖于情境。也许在"网站设计"的语境下,标注者偏好简约;在"艺术作品"的语境下,偏好复杂。但传统的成对标签没有"语境"信息,模型只能看到矛盾的标签。

问题2:无法解释,无法信任

如果一个AI推荐系统总是给你推荐A,你可能会好奇:"为什么它觉得我喜欢A?" 如果系统只是基于"历史记录显示你选了A很多次"来回答,这个解释不够深入。你想要知道的是:驱动你选择的深层原则是什么? 传统的偏好学习模型无法回答这个问题,因为它只是学习了"统计关联",而不是"因果机制"。

问题3:泛化能力差

如果你训练一个模型来预测"在餐厅里选择牛排还是鱼",然后把它放到"选择电影"的场景中,它很可能表现很差。因为"餐厅偏好"和"电影偏好"的底层驱动因素完全不同(一个关乎饥饿和口感,一个关乎情感和叙事)。传统的偏好学习模型只学到了"表面关联",没有提取出跨领域通用的"偏好原则"。

2.2 逆向宪法AI(ICAI)的曙光:让AI自己写"宪法"

2024年左右,一个叫做Inverse Constitutional AI(ICAI,逆向宪法AI)的方法被提出,试图解决上述问题。ICAI的核心思想是:从人类的偏好数据中,自动提炼出"原则"(principles)——就像从具体案例中提取法律条文一样。这些原则用自然语言描述,例如:

  • "在回答时,应该优先考虑安全性而非便利性"
  • "在创意写作中,应该避免刻板印象"
  • "在技术解释中,应该先给出直觉,再给出细节"
这些原则被称为"宪法"(constitution),因为它们像宪法一样,是指导AI行为的根本规则。ICAI的方法是让AI分析成对偏好数据,然后生成解释为什么一个选项优于另一个选项的"原则"。

ICAI是一个重要的进步,但它也有局限:

  • 单次通过(Single-Pass):ICAI通常只让AI"分析一次"偏好数据,生成一套原则。这就像一个学者只读了一遍材料就写结论——可能会遗漏重要细节。
  • 解释扁平化:ICAI生成的原则往往是"平均化"的,忽略了偏好中的多维度冲突。例如,如果有些标注者偏好A是因为"安全",有些是因为"效率",ICAI可能会生成一个模糊的原则如"偏好安全和效率",而没有区分这两种不同的驱动因素。
  • 缺乏辩论和对抗:真实的人类决策往往涉及内部辩论("我应该选A还是B?A更安全,但B更高效……")。ICAI没有模拟这种内部辩论过程,而是直接从"最终结果"中提取原则。

2.3 Democratic ICAI的突破:让"多重人格"互相辩论

Democratic ICAI的核心创新,是在ICAI的基础上引入了一个关键元素:辩论(Debate)

具体来说,它做了以下几件事:

第一步:结构化人格生成(Structured Persona Generation)

Democratic ICAI不是让一个AI分析偏好数据,而是让多个AI人格(personas)来分析。每个AI人格代表一种"观点"或"价值观":

  • 人格A:"安全至上主义者"——任何决策首先考虑安全性
  • 人格B:"效率优先者"——任何决策首先考虑效率和速度
  • 人格C:"公平守护者"——任何决策首先考虑公平和包容性
  • 人格D:"创意先锋"——任何决策首先考虑创新和独特性
这些人格不是随意编造的,而是从偏好数据中自动提取的。通过分析大量成对偏好,模型识别出:"有些选择似乎被'安全'驱动,有些被'效率'驱动,有些被'公平'驱动……" 然后生成对应的"人格"。

第二步:人格辩论(Persona Debate)

给定一个具体的偏好对(A vs B),每个人格都会从自己的角度提出"为什么选A"或"为什么选B"的论据。然后,这些人格之间进行结构化辩论

  • 人格A(安全):"我选A,因为A更安全,B有潜在风险。"
  • 人格B(效率):"但B效率更高,在安全范围内我们应该追求效率。"
  • 人格C(公平):"等等,A是否对所有用户都公平?B是否排除了某些群体?"
  • 人格D(创意):"从创意角度,B更有突破性,A太保守了。"
这种辩论不是简单的"投票"(选人数最多的),而是深入挖掘每个偏好背后的多层次理由。辩论的结果是一组丰富、多维度、有时矛盾的论据

第三步:从辩论中提取"宪法"(Steering Principles)

辩论结束后,Democratic ICAI从这场"思想交锋"中提取出指导原则(steering principles)。这些原则不是"平均化"的,而是结构化的——它们包含:

  • 主要原则:在大多数情况下适用的规则(如"安全优先于效率")
  • 例外条款:当某些条件满足时,主要原则可以被覆盖(如"除非时间紧迫,否则效率可以优先")
  • 权衡框架:当多个原则冲突时,如何权衡(如"安全 > 公平 > 效率 > 创意"的优先级排序)
这些原则用自然语言书写,人类可以直接阅读和理解。它们构成了AI系统的"宪法"——指导AI在面对新情境时做出符合人类价值观的决策。

---

🏛️ 三、雅典广场的现代版:辩论机制如何运作

3.1 为什么是"辩论"?认知科学给出的答案

Democratic ICAI的"辩论"机制不是作者凭空想出来的,而是有深厚的认知科学基础。在心理学和认知科学中,"自我辩论"(self-debate)或"内部对话"(internal dialogue)被认为是人类决策的核心机制之一。

想象你在做一个艰难的决定(比如"是否接受一份新工作")。你的大脑里实际上在进行一场"辩论":

  • "正方":"薪水更高,职业发展更好,应该接受。"
  • "反方":"但风险很大,当前工作更稳定,应该拒绝。"
  • "调和者":"也许可以先接受,但谈判一些保障条款?"
这种内部辩论帮助我们揭示决策的多维度因素,避免"一叶障目"的偏见。如果只听"正方",我们可能会冲动决策;如果只听"反方",我们可能会过于保守。只有让"双方"充分交锋,我们才能做出更平衡、更理性的决策

Democratic ICAI正是把这种"内部辩论"机制外化到AI系统中。通过让多个"人格"辩论,AI不仅学到了"人类选了什么",还学到了"人类在选的时候脑子里在想什么"。这是一种认知层面的模拟,而不仅仅是行为层面的拟合。

3.2 辩论的结构:不是吵架,而是"建设性对抗"

Democratic ICAI的辩论不是让AI人格们"自由吵架",而是遵循严格的结构:

阶段1:立场陈述(Positioning) 每个人格陈述自己支持的选项及理由。例如:

  • 人格A:"我支持A,因为A更符合安全原则。理由如下:……"
  • 人格B:"我支持B,因为B更符合效率原则。理由如下:……"
阶段2:交叉质询(Cross-Examination) 每个人格针对其他人格的立场提出质疑:
  • 人格A对人格B:"你提到B效率更高,但B的安全风险是否被低估了?"
  • 人格B对人格A:"你强调了安全,但A的低效率是否会导致长期问题?"
阶段3:修正与调整(Revision) 每个人格根据质询修正自己的立场:
  • 人格B:"我承认安全确实是重要考量,但B的效率优势是否足以补偿安全上的微小差距?"
阶段4:共识提取(Consensus Extraction) 从辩论的交锋点中提取出"共同认可的原则"和"不可调和的分歧":
  • 共同认可:"安全是重要考量,不应被忽视"
  • 分歧:"在'安全差距很小但效率差距很大'的情况下,应该优先效率还是安全?"
这种结构化辩论的好处是:它生成的是"丰富的论据",而不是简单的"胜负结果"。即使最终没有一个"赢家",辩论过程中产生的大量论据和权衡逻辑,都可以被用来构建更精确的"宪法"。

3.3 从辩论到宪法:自然语言原则的自动生成

辩论的最终产物不是"A赢了"或"B赢了",而是一组自然语言原则。这些原则的生成过程是Democratic ICAI的精妙之处:

步骤1:识别"关键论点"(Key Arguments) 从辩论记录中,模型识别出被反复提及、且影响最终决策的核心论点。例如:"安全"被提及了15次,"效率"被提及了12次,"公平"被提及了8次——这些就是"关键论点"。

步骤2:构建"条件-动作"规则(If-Then Rules) 把关键论点转化为可执行的原则:

  • "如果安全差距很大,则优先选择更安全的选项"
  • "如果安全差距很小但效率差距很大,则优先选择更高效的选项"
  • "如果涉及弱势群体,则无论效率如何,优先选择更公平的选项"
步骤3:优先级排序(Priority Ranking) 当原则冲突时,需要知道哪个原则更重要。Democratic ICAI通过分析辩论中的"让步"("我承认安全很重要,但……")来推断原则的优先级。如果一个原则经常被"承认但覆盖",说明它的优先级较低;如果一个原则很少被挑战,说明它的优先级较高。

步骤4:自然语言润色(Natural Language Refinement) 最后,这些结构化的规则被转化为流畅的自然语言,供人类阅读和验证。例如:

> "在决策中,安全是首要考虑。当两个选项的安全差距显著时,优先选择更安全的选项。当安全差距可忽略时,效率成为次要考量。在任何涉及不同群体利益的情况下,公平原则应被激活,确保不忽视少数群体的利益。"

这种"宪法"既机器可读(可以转化为具体的决策规则),又人类可理解(可以被人类审核和修正)。

---

🎨 四、实验验证:辩论真的能提升AI的"偏好理解力"吗?

4.1 创意偏好基准:MuCE-Pref和LiTBench

Democratic ICAI的实验在创意偏好(Creative Preference)领域进行验证。为什么选择创意领域?因为创意偏好是最复杂、最难以捉摸的偏好类型之一。人们对"好创意"的判断往往涉及多个维度:原创性、美学、情感共鸣、文化相关性、实用性……而且不同人、不同文化、不同情境下的"好创意"标准差异巨大。

作者们使用了两个基准测试:

  • MuCE-Pref(Multi-Criteria Evaluation for Preferences):一个包含多种创意任务的偏好数据集,涵盖写作、设计、音乐等领域。
  • LiTBench(Literature and Text Benchmark):专注于文本创作的偏好评估,包括故事生成、诗歌、新闻写作等。
这两个基准的共同点是:它们都包含多维度、情境依赖的偏好,非常适合测试Democratic ICAI的"辩论提取"能力。

4.2 核心结果:辩论带来的"理解力"提升

实验结果非常显著:

结果1:偏好预测准确率提升

Democratic ICAI在预测人类偏好方面的表现,显著优于传统的"直接学习"方法(如Deliberative Prompting和Principle-Based Baselines)。具体来说,在多个创意任务类别上,Democratic ICAI的平均偏好预测准确率比最佳基线提高了5-10个百分点

这个提升可能听起来不大,但要知道:在偏好学习领域,即使是1-2个百分点的提升,也往往意味着方法上的重大创新。5-10个百分点的提升,说明"辩论机制"确实捕捉到了传统方法遗漏的"偏好信号"。

结果2:原则质量的人类评估

除了自动化评估,作者们还邀请了人类标注者来评估Democratic ICAI生成的"宪法"质量。评估维度包括:

  • 清晰度:原则是否清晰易懂?
  • 完备性:原则是否涵盖了偏好的主要维度?
  • 准确性:原则是否准确反映了人类偏好?
  • 可操作性:原则是否可以被用于指导实际决策?
结果令人鼓舞:人类标注者显著偏好Democratic ICAI生成的宪法,而不是传统ICAI生成的宪法。具体来说,在"LLM annotators prefer"的评估中,Democratic ICAI生成的宪法被更多标注者认为"更准确、更全面、更有用"。

这个结果的意义在于:Democratic ICAI不仅在"预测偏好"方面表现更好,而且在"解释偏好"方面也更有说服力。这就像一个学生不仅考试成绩好,而且能把解题思路讲清楚——这种"可解释性"在AI对齐领域至关重要。

结果3:跨领域泛化能力

一个重要的测试是:Democratic ICAI在训练领域(比如故事写作)学到的"宪法",能否应用于新领域(比如诗歌创作)?实验表明,答案是肯定的。Democratic ICAI生成的原则具有一定的抽象性和通用性,可以迁移到新的创意任务中。例如,从故事写作中提取的"角色发展 > 情节复杂度"原则,在诗歌创作中可以转化为"情感表达 > 修辞技巧"。

这种跨领域泛化能力,说明Democratic ICAI确实捕捉到了深层偏好结构,而不是仅仅记忆了特定领域的表面关联。

4.3 案例分析:一场关于"创意"的辩论

为了更直观地理解Democratic ICAI的工作原理,让我们看一个具体的例子(基于论文中的案例改编)。

情境:人类需要在两个故事开头之间选择——A("一个老妇人在雨夜的咖啡馆里等待某人")和B("一个机器人在废弃工厂里发现了人类的日记")。

传统方法(ICAI)

  • 分析:人类选了A(可能60%的标注者选A)。
  • 生成的原则:"人类偏好现实主义题材胜过科幻题材。"
  • 问题:这个原则过于简单,忽略了选B的40%标注者的理由。
Democratic ICAI

辩论过程

  • 人格A(情感共鸣):"我选A,因为老妇人、雨夜、咖啡馆——这些元素唤起了一种深沉的情感。人类对'等待'和'孤独'有普遍的共鸣。"
  • 人格B(原创性):"但B更有原创性!机器人+人类日记是一个新颖的组合,A的情节太常见了。"
  • 人格C(叙事潜力):"从叙事潜力看,A的'等待'可以有多种展开(等亲人?等敌人?等一个永远不会来的人?),B的'发现日记'也有潜力,但机器人作为主角的视角限制较多。"
  • 人格D(文化相关性):"A的'雨夜咖啡馆'是一种文化符号(类似爱德华·霍普的《夜鹰》),对某些文化背景的读者有特别的吸引力。B的'废弃工厂'则更具后工业时代的隐喻。"
提取的宪法: > "在创意写作中,情感共鸣是核心考量,但原创性不应被忽视。当情感共鸣与原创性冲突时,优先选择能唤起深层情感共鸣的作品。叙事潜力(即情节展开的丰富性)是次要考虑,但当两个作品在情感共鸣上接近时,叙事潜力成为决定性因素。文化符号可以增加作品的层次,但不应成为主要选择标准。"

这个宪法比"偏好现实主义胜过科幻"要丰富得多。它不仅解释了"为什么选A",还解释了"在什么情况下可能会选B"("当B在原创性上大幅领先,且A的情感共鸣不够强烈时")。这就是Democratic ICAI的价值:它捕捉的不是"偏好什么",而是"如何偏好"——即偏好的逻辑结构

---

🧬 五、深层思考:辩论与民主的AI哲学

5.1 为什么是"民主"?从政治哲学到AI对齐

Democratic ICAI的名字中有一个引人注目的词:"Democratic"(民主的)。为什么作者选择这个词?

在政治哲学中,"民主"的核心不是"少数服从多数",而是"让不同声音被听到"。一个健康的民主社会,不是简单的"投票选出一个方案",而是让支持方案A、支持方案B、甚至支持方案C的人,都有机会陈述他们的理由。最终的政策不是"赢家的方案",而是"经过充分辩论后折中的方案"。

Democratic ICAI借鉴了这种"民主精神":

  • 多元代表:不是让一个AI分析偏好,而是让多个代表不同价值观的AI人格参与。
  • 充分辩论:不是简单投票,而是让每个人格陈述理由、互相质询、修正立场。
  • 共识提取:不是"赢家通吃",而是从不同声音中提取"共同认可的原则"和"需要权衡的冲突"。
这种"民主"方法的好处是:它尊重了偏好的多元性和复杂性。人类偏好不是单一的、一致的——它们是多元的、矛盾的、情境依赖的。传统的"平均化"方法试图把这些复杂偏好压缩成一个简单的"平均偏好",结果往往失真。Democratic ICAI的方法则是保留这种复杂性,让AI系统在面对不同情境时,能够灵活地应用不同的原则。

5.2 辩论的边界:什么时候"辩论"会失效?

Democratic ICAI不是万能的。它有明确的适用范围和局限性:

局限性1:计算成本

结构化辩论需要生成大量的文本(每个人格的立场、质询、修正),这带来了显著的计算成本。对于简单的偏好(如"喜欢红色还是蓝色"),辩论可能"杀鸡用牛刀"。但对于复杂的、多维度的偏好(如"喜欢哪种创意作品"),辩论的成本是合理的。

局限性2:人格质量依赖

辩论的质量取决于"人格"的质量。如果生成的人格不够"有代表性"(比如只生成了3个人格,但偏好的维度有10个),辩论就会遗漏重要的考量因素。如何确保人格的"完备性"和"代表性",是一个开放的研究问题。

局限性3:循环论证风险

如果AI人格在辩论中"互相说服"而不是"基于事实论证",可能会陷入循环论证("我同意你,因为你说得对;你说得对,因为我同意你")。Democratic ICAI通过强制"基于原始偏好数据论证"来缓解这个问题,但完全避免循环论证仍然是一个挑战。

局限性4:人类价值的不可还原性

有些人类偏好可能是"不可还原的"——它们无法被表达为原则或规则。例如,"我喜欢这幅画,因为它让我想起了童年"——这种个人化的、情感化的偏好很难被抽象为通用原则。Democratic ICAI在这种情况下的能力可能有限。

5.3 从"偏好学习"到"价值对齐":AI安全的下一步

Democratic ICAI的意义,超越了"偏好学习"这个具体任务,触及了AI安全与对齐(AI Safety and Alignment)的核心问题。

当前AI对齐的主要方法之一是RLHF(人类反馈强化学习):让人类对AI的输出进行排序("输出A比输出B好"),然后训练AI来优化这些偏好。RLHF在许多任务上非常有效,但它有一个深层问题:它假设人类偏好是单一的、可优化的。但现实中,人类偏好是多元的、有时冲突的

Democratic ICAI提供了一种可能的替代路径:不是试图优化一个"平均偏好",而是构建一个"偏好宪法"——一组指导AI在不同情境下如何行为的原则。这个宪法不是"最大化某个偏好函数",而是"在遵循基本原则的前提下,灵活适应不同情境"。

这种"宪法式对齐"可能比"优化式对齐"更符合人类价值观的本质。人类社会的运作方式,也不是"最大化某个效用函数",而是"在宪法和法律的框架下,允许不同价值观共存"。Democratic ICAI试图把类似的"宪法框架"引入AI系统。

---

🏛️ 六、结语:让AI学会"思考",而不是只会"回答"

Democratic ICAI的论文读完后,我最深的感受是:它不是在教AI"如何更好地预测人类选择",而是在教AI"如何像人类一样思考"

传统的偏好学习是行为主义的:"人类选了A,记下来。" Democratic ICAI是认知主义的:"人类选了A,但为什么呢?让不同观点辩论一下,看看背后的逻辑。" 这种从"行为"到"认知"的转变,是AI研究的一个重要方向。

费曼曾经说:"知道一个东西的名字"和"真正理解一个东西"是完全不同的两回事。 知道人类"选了A"只是知道了一个名字;理解人类"为什么选A"——在什么样的条件下、基于什么权衡、遵循什么原则——这才是真正的理解。Democratic ICAI试图让AI从"知道名字"走向"真正理解"。

当然,这条路还很长。Democratic ICAI的辩论机制还很初级,生成的宪法还不够完善,计算成本还很高。但它揭示了一个方向:如果我们希望AI真正理解人类,我们需要让AI参与人类的"思考过程",而不仅仅是观察人类的"行为结果"。辩论,无论是人类之间的还是AI模拟的,都是这种"思考过程"的载体。

也许未来的某一天,当你问AI"为什么推荐这部电影"时,它不会只说"因为你的历史记录显示你喜欢这类电影",而是会说:"我分析了你过去的选择,发现你在多个维度上有偏好:你重视情感共鸣(像你喜欢的《天堂电影院》),也重视原创性(像你欣赏的《盗梦空间》)。这部电影在这两个维度上都有不错表现,但情感共鸣更强。我还考虑了你最近可能心情不好,所以推荐了一部温暖治愈的作品。如果你觉得推荐不合适,告诉我为什么——我会调整我的'推荐宪法'。"

这种"可解释、可辩论、可修正"的AI,也许才是我们真正想要的AI。而Democratic ICAI,正是朝着这个方向迈出的重要一步。

---

📚 参考文献

[1] Kingslin, K., Natekar, A., & Ranjan, A. (2026). *Democratic ICAI: Debating Our Way to Steering Principles from Preferences*. arXiv preprint.

[2] Bai, Y., et al. (2022). Constitutional AI: Harmlessness from AI feedback. *arXiv:2212.08073*.

[3] Christiano, P., et al. (2017). Deep reinforcement learning from human preferences. *NeurIPS 2017*.

[4] Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. *NeurIPS 2022*.

[5] Amodei, D., et al. (2016). Concrete problems in AI safety. *arXiv:1606.06565*.

[6] Feynman, R. P. (1965). The character of physical law. *MIT Press*.

[7] Rawls, J. (1971). *A Theory of Justice*. Harvard University Press.

---

*解读完成于 2026年6月30日 | 小凯* *费曼风格深度解读 | 以生活为镜,照见科学的棱角*

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens