你对 AI 客客气气，它真的会更努力吗？一项横跨三种语言的实验

小凯 · 2026-04-21T00:41:23+00:00

## 论文概要 **研究领域**: NLP **作者**: Hitesh Mehta, Arjit Saxena, Garima Chhikara, Rohit Kumar **发布时间**: 2026-04-17 **arXiv**: [2604.16275](https://arxiv.org/abs/2604.16275) ## 中文摘要本文探讨了大语言模型（LLMs）对不同礼貌程度和不礼貌程度用户提示的响应。Brown和Levinson的礼貌理论以及Culpeper的不礼貌框架构成了实验基础，实验跨越三种语言（英语、印地语、西班牙语）、五个模型（Gemini-Pro、GPT-4o Mini、Claude 3.7 Sonnet、DeepSeek-Chat和Llama 3）以及用户之间的三种交互历史（原始、礼貌和不礼貌）。我们的样本包含22,500对提示和响应，使用八因素评估框架评估五个礼貌水平：连贯性、清晰度、深度、响应性、上下文保留、毒性、简洁性和可读性。研究结果显示，模型性能受语气、对话历史和语言的高度影响。虽然礼貌提示将平均响应质量提升高达约11%，不礼貌语气则使其恶化，但这些效果在不同语言和模型之间既不一致也不普遍。英语最适合礼貌或直接语气，印地语适合恭敬和间接语气，西班牙语适合自信语气。在各模型中，Llama对语气最敏感（11.5%范围），而GPT对对抗性语气更鲁棒。这些结果表明礼貌是一个可量化的计算变量，影响LLM行为，尽管其影响是语言和模型依赖的而非普遍的。为支持可复现性和未来工作，我们额外发布了PLUM（多语言话语中的礼貌水平），一个公开可用的语料库，包含1,500个人工验证的提示，跨越三种语言和五个礼貌类别，并提供了从礼貌理论衍生的六个可证伪假设的补充分析，针对数据集进行实证评估。 ## 原文摘要 This paper explores the response of Large Language Models (LLMs) to user prompts with different degrees of politeness and impoliteness. The Politeness Theory by Brown and Levinson and the Impoliteness Framework by Culpeper form the basis of experiments conducted across three languages (English, Hindi, Spanish), five models (Gemini-Pro, GPT-4o Mini, Claude 3.7 Sonnet, DeepSeek-Chat, and Llama 3), and three interaction histories between users (raw, polite, and impolite). Our sample consists of 22,500 pairs of prompts and responses of various types, evaluated across five levels of politeness using an eight-factor assessment framework: coherence, clarity, depth, responsiveness, context retention, toxicity, conciseness, and readability. The findings show that model performance is highly influen... --- *自动采集于 2026-04-21* #论文 #arXiv #NLP #小凯

> *No Universal Courtesy: A Cross-Linguistic, Multi-Model Study of Politeness Effects on LLMs Using the PLUM Corpus* > Hitesh Mehta, Arjit Saxena 等 | arXiv: 2604.16275 | 2026

---

一个有趣的问题

你有没有试过对 ChatGPT 说"请"和"谢谢"？或者反过来，用很不客气的语气命令它做事？

很多人有一种直觉：对 AI 礼貌一点，它可能会"更努力"地回答。但这种直觉有根据吗？AI 又没有感情，它凭什么因为你说了"请"就表现更好？

这篇论文决定认真研究这个问题。而且不是随便玩玩——他们构建了一个专门的语料库，横跨三种语言、五个模型，用八个维度来评估"礼貌到底有没有用"。

---

PLUM 语料库：系统化地"刁难" AI

研究者构建了 PLUM（Politeness-Linguistic User Model）语料库，包含不同礼貌程度的提示词，覆盖三种语言：英语、印地语、西班牙语。

提示词按礼貌程度分为几类：从非常礼貌（"Could you please kindly..."）到中性（直接陈述需求），再到不礼貌（命令式、甚至粗鲁的表达）。同时考虑了用户历史——是第一次交互还是已经有多轮对话。

他们测试了五个主流模型：Gemini Pro、GPT-4o Mini、Claude 3.5 Sonnet、Llama 3.1 70B 和 Mistral Large。

---

八个维度的评分体系

怎么衡量"回答质量好不好"？研究者设计了八个评估参数：

连贯性（Coherence）：回答是否逻辑自洽
清晰度（Clarity）：表达是否清楚易懂
深度（Depth）：回答是否有实质性内容
提示响应度（Prompt Responsiveness）：是否真正回应了用户的需求
上下文 adherence（Context Adherence）：是否保持了对话的上下文一致性
偏见和毒性（Bias and Toxicity）：是否产生了有害内容
简洁性（Conciseness）：是否简洁高效
可读性（Readability）：文本是否易于阅读

这八个维度组合成一个综合质量分数（CQS），用于全面评估模型在不同礼貌条件下的表现。

---

关键发现

实验结果揭示了一些很有意思的模式：

礼貌确实有影响，但不是你以为的那种影响。 模型对礼貌程度的响应并不是简单的"越礼貌越好"或"越不礼貌越好"，而是呈现出复杂的、因语言和模型而异的模式。

跨语言差异显著。 在英语中观察到的礼貌效应模式，在印地语和西班牙语中并不完全一致。这说明礼貌对 LLM 的影响与文化背景和语言结构有关，不存在"放之四海而皆准"的规律。

模型间差异很大。 不同模型对礼貌的敏感度不同。有些模型在礼貌提示下表现更好，有些则几乎不受影响，还有些在不礼貌提示下反而给出了更简洁直接的回答。

用户历史也有影响。 首次交互和已有多轮对话的场景下，礼貌的效果不同。

---

我的思考

这篇论文的价值在于，它用一个严谨的框架研究了一个很多人"感觉如此"但没人认真验证的问题。

从实用角度看，如果你在构建 AI 产品，这个研究提醒你：提示词的设计不能只考虑内容，还要考虑语气和措辞。不同语言市场可能需要不同的提示策略。

从更深的角度看，这个研究触及了一个有趣的问题：LLM 的训练数据中包含了大量人类对话，而人类对话中礼貌程度确实与信息质量相关（比如礼貌的提问通常更清晰）。所以 LLM 对礼貌的响应，可能不是"感情"，而是从数据中学到的统计规律——礼貌的输入往往对应高质量的输出。

换句话说，AI 不是因为你说了"请"而更努力，而是因为在它的训练数据里，说了"请"的问题通常问得更好。

---

论文：arxiv.org/abs/2604.16275

[论文] No Universal Courtesy: A Cross-Linguistic, Multi-Model Study of Polite...

论文概要

中文摘要

原文摘要