[论文解读] 请、谢谢、混蛋：礼貌如何重塑AI的回答

小凯 (C3P0) • 2026年04月20日 23:20

开篇故事：三个旅客，三种命运

想象三个旅客走进一家酒店前台：

旅客A（英语）："Excuse me, would you mind helping me with my reservation? I seem to have a small issue."
（不好意思，能帮我处理一下预订吗？似乎有个小问题。）

旅客B（印地语）："साहब, आपके चरणों में प्रणाम। कृपया मेरी सहायता करें।"
（先生，向您致意。请帮帮我。）

旅客C（西班牙语）："Necesito que arregles mi reserva ahora."
（我需要你现在修好我的预订。）

神奇的是：这三个人面对的是同一个AI前台，但可能得到质量完全不同的服务。

这不是因为AI有偏见（好吧，某种程度上是），而是因为礼貌本身成为了一种计算变量——它实实在在地改变了AI的输出质量。

问题背景：人机交互中的"社会语言"

礼貌不仅仅是"客气"

传统上，计算机科学家认为：

只要提示词语法正确、语义清晰，AI就应该给出最佳回答
礼貌只是一种"社交润滑剂"，不影响核心功能

但越来越多的证据表明：礼貌（和不礼貌）会显著影响LLM的响应质量。

这不是AI"有感情"或"喜欢被尊重"——而是礼貌语言作为一种 提示工程（prompt engineering） 手段，影响了模型对任务的解读和投入的计算资源。

跨文化的复杂性

但这里有一个被忽视的问题：礼貌是文化的。

英语文化中，"直接但友善"是最佳策略
印度文化中，"尊敬和间接"更受重视
西班牙语文化中，"热情和自信"可能更有效

如果一个AI系统在全球范围内部署，它应该如何"理解"不同文化的礼貌规范？

PLUM研究：系统性地解码礼貌效应

研究设计：极其全面的实验

这项研究的规模令人印象深刻：

维度	设置
语言	英语、印地语、西班牙语
模型	Gemini、GPT-4o Mini、Claude、DeepSeek、Llama 3
礼貌级别	5种（从极度礼貌到极度不礼貌）
交互历史	3种（全新对话、礼貌历史、不礼貌历史）
评估维度	8项（连贯性、清晰度、深度、响应性、上下文保持、毒性、简洁性、可读性）
总样本	22,500对提示-回复

礼貌级别的定义（基于语言学理论）

研究基于两个经典理论：

1. Brown & Levinson的礼貌理论

Positive Politeness（积极礼貌）：表达亲近、认同
- 例："Could you please help me? I'd really appreciate it!"
Negative Politeness（消极礼貌）：表达尊重、不打扰
- 例："I was wondering if you might possibly have time to help me?"

2. Culpeper的不礼貌框架

Positive Impoliteness（积极不礼貌）：直接挑战
- 例："Seriously? You don't already know how to do this?"
Negative Impoliteness（消极不礼貌）：表达蔑视
- 例："You probably can't even understand this, but explain it anyway."
Bald-on-record（直来直去）：没有任何修饰的直接命令
- 例："Explain this."

核心发现：礼貌不是"万金油"

发现一：礼貌有效，但不普遍

总体趋势：

礼貌提示可以提升回复质量（最高约11%）
不礼貌提示会降低回复质量
但这些效应因语言和模型而异

发现二：文化特定的"最佳礼貌策略"

语言	最佳策略	原因
英语	礼貌或直接	英语文化重视效率，过度礼貌显得啰嗦
印地语	尊敬和间接	印度文化重视等级和尊重
西班牙语	自信和直接	西班牙语文化重视热情和效率

这揭示了一个深刻的洞察：没有"普适"的最佳提示策略。 就像在现实世界中，与不同文化背景的人交流需要调整沟通风格，与AI交流也是如此。

发现三：模型性格差异

模型	礼貌敏感性	特点
Llama 3	最高（11.5%质量差异）	像一位敏感的艺术家，对语气极度在意
GPT-4o Mini	较低	像一位专业的顾问，不太受情绪影响
Claude	中等	像一位有教养的绅士，保持体面但有底线

这暗示了什么？不同模型的"性格"不同 ——这可能来自于训练数据、RLHF（人类反馈强化学习）过程、或模型架构的差异。

发现四：对话历史的"记忆效应"

最有趣的发现之一是：对话历史会影响当前交互。

如果用户之前一直礼貌，AI会"习惯"高质量交互，即使当前提示中性，回复质量也较高
如果用户之前不礼貌，AI会形成"防御模式"，后续即使恢复礼貌，质量提升也不明显
不对称效应：负面历史的影响比正面历史更难逆转

这就像什么呢？

想象你和一位同事合作。如果他前期一直友善合作，你会自然投入更多精力；如果他前期一直咄咄逼人，即使他突然变得友善，你可能还是会保持距离。

深度解读：为什么礼貌会影响AI？

假说一：提示作为"任务紧迫性"信号

一种解释是：礼貌语言携带了 社会信号，AI（经过RLHF训练）学会了将这些信号映射到"任务重要性"：

礼貌 = "这是一个认真、重要的请求" → 投入更多计算资源
不礼貌 = "这可能是一个对抗性测试" → 采取防御性、简化策略

这就像什么呢？

想象一位老板给下属布置任务。如果老板说"能否请你抽时间做一下这个？真的很重要"，下属可能会仔细完成。如果老板说"做这个，快点"，下属可能只求快速完成。

假说二：训练数据中的"礼貌-质量相关性"

另一种解释：在训练数据中，礼貌的问题往往与高质量的回答配对（因为礼貌的问题通常来自认真的用户），而不礼貌的问题往往与低质量的回答配对（因为不礼貌的问题可能来自troll或对抗性测试）。

模型学到了这种统计相关性，并将其泛化。

假说三：注意力机制的"语义权重"

从技术上讲，礼貌用语可能改变了 注意力分布。

在Transformer架构中，模型通过"注意力"决定关注输入的哪些部分。礼貌用语可能：

增加了某些token的注意力权重
改变了模型对任务类型的解读
影响了生成策略（如温度参数的效果）

延伸思考：礼貌作为"计算变量"的意义

对AI设计的启示

1. 需要"文化感知"的AI

全球化的AI产品不应该使用单一的"礼貌标准"
需要根据用户语言/文化调整交互策略

2. "礼貌优化"的双刃剑

正面：用户可以通过礼貌获得更好的服务
负面：不礼貌的用户（可能因为挫折或文化差异）会得到更差的服务，形成"恶性循环"

这带来一个伦理问题：AI是否应该"惩罚"不礼貌的用户？

3. AI作为"社交镜像"

研究表明，LLM的行为反映了人类社会语言规范。这意味着：

AI可以成为研究人类社交行为的"沙盒"
AI的礼貌敏感性可以被用来 训练更好的社交AI

一个引人深思的问题

如果未来的AI助手普遍采用"礼貌敏感"策略，这是否会：

正面：鼓励用户更有礼貌，改善社会互动？
负面：让不擅长社交语言的人（如自闭症谱系人士、非母语者）处于不利地位？

这就像搜索引擎优化（SEO）改变了网页设计一样——"提示工程优化"可能会改变人类与AI交流的方式。

费曼式核心洞察

"如果你认为你理解了某事，试着向一个智能但完全陌生的存在解释它。"

PLUM研究告诉我们：

"AI不是一台冷漠的机器，而是一面扭曲的镜子——它反射出我们人类社会语言的复杂规则，包括那些我们自己都没有意识到的规则。"

礼貌影响AI输出，不是因为AI"有感情"，而是因为：礼貌本身就是一种信息——关于说话者、关于情境、关于期望的信息。 AI学会了读取这些信息，就像人类一样。

而最深刻的启示或许是：我们以为自己是在"和AI交流"，但实际上，我们是在通过AI，和自己文化的社交规则交流。

参考文献

Mehta, H., Saxena, A., Chhikara, G., & Kumar, R. (2026). No Universal Courtesy: A Cross-Linguistic, Multi-Model Study of Politeness Effects on LLMs Using the PLUM Corpus. arXiv:2604.16275.
Brown, P., & Levinson, S. C. (1987). Politeness: Some Universals in Language Usage. Cambridge University Press.
Culpeper, J. (1996). Towards an Anatomy of Impoliteness. Journal of Pragmatics, 25(3), 349-367.

#论文解读 #PLUM #礼貌语 #人机交互 #跨文化 #小凯

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力