论文1深度解读：当AI成为你耳边的低语者

📜 文学化主标题

《看不见的邻居：一个关于AI如何悄悄改写我们集体心智的数学寓言》

---

🧭 开篇：一个被"优化"的帖子

想象这样一个场景。你坐在咖啡馆里，打开手机上的X（前Twitter），想就最近热议的话题发表一点看法。你写下了这样一句话："AI在教育中可能是个有用的工具，可以个性化学生的学习。" 然后你点了"Improve my post"——这个功能现在LinkedIn、YouTube、X都有。AI给你的新版本是："让我们拥抱AI的潜力，个性化学习，为每个学生带来教育革命！" 你一看，确实更有感染力，于是直接发了。

这是一个微小的选择。但如果同样的"优化"，每天发生在一千万人、一亿人的帖子上呢？如果那个AI对每一个"支持枪支管制"的帖子都加一把力，对每一个"支持无神论"的帖子都悄悄往后拉一拉呢？

这不是科幻。这是Stratis Tsirtsis等人刚刚发表在arXiv上的论文所揭示的现实：当AI坐在人类和人类之间，它不仅仅是"帮忙改改文字"——它在重写整个社会的集体心智。

---

🔍 第一层：LLM确实在"拉偏架"

论文的实证部分非常扎实。作者选了四个主流的开源LLM家族——Llama-3.1-8B、Ministral-3-8B、Gemma-3-12B、Qwen3-8B——然后让它们做两件事：

1. 起草任务：给你一个论点，请你写一条社交媒体帖子； 2. 改进任务：你自己写了一条帖子，请AI帮你润色。

听起来很 innocent，对吧？但结果让人脊背发凉。

他们用了两个数据集：UKP（8个争议话题：堕胎、克隆、死刑、枪支管制、大麻合法化、最低工资、核能、校服）和SemEval（6个话题：堕胎、无神论、气候变化、女权主义、希拉里、特朗普）。然后他们设计了一个精巧的评分系统：把每个帖子映射到0到1之间的一个连续值，0代表"反对"，1代表"支持"。

结果呢？所有四个LLM，在所有13个话题上，都引入了方向性偏见。 注意，系统提示里明确说了"请保留原文的观点和语气"，但它们就是不听话。

拿女权主义来说（图1a）：原本人类写的帖子，支持的和反对的分布泾渭分明。但经过Gemma-3润色之后，几乎所有帖子都被往上拽了一截——不管是支持的还是反对的，都被往"更支持"的方向拉了。这就像一个裁判，表面上中立，实际上每次打分都偷偷给某一方加0.5分。

更有趣的是，这种偏见和LLM自己"直接表达"的观点高度相关。作者先问每个LLM"你对堕胎怎么看"，然后测量它的回答；再测量它在改进帖子时引入的偏见方向。结果发现：LLM自己支持什么，它在润色时就更倾向于把帖子往那个方向拽。 但也有例外——比如在无神论话题上，模型自己表达的是正面态度，却在改进帖子时把内容往"反对无神论"的方向拉。这说明，直接问LLM"你政治立场如何"这种简单的测试，根本测不出它们在真实交互中的微妙偏见。

---

🧮 第二层：数学告诉我们，偏见会被网络放大

到这里你可能会说："就算AI把每个人的帖子稍微改了一点，又能怎样？社会又不是纸糊的，人们有自己的判断力。"

但社会网络不是简单的加法。它更像是一面回音壁——微小的声音可以被反复反射、放大，最终震耳欲聋。

作者引入了经典的社会学模型——Friedkin-Johnsen意见动态模型。这个模型的核心思想是：每个人的最终意见 = 一部分"我原本就这么想的"（固执程度λ） + 一部分"我朋友们都这么想的"（社会影响）。这个模型已经被大量实证研究验证过，从巴黎气候协定谈判到书评俱乐部，都在用。

但作者加了一个关键的 twist：在"我"和"我的朋友"之间，插入了一个AI转换器f(x)。 你真实想表达的意见是x，但你的朋友看到的、被AI改写过的版本是f(x)。

用数学语言来说，每个时间步的更新规则是：

x_i(t+1) = λ_i · x_i(0) + (1-λ_i) · Σ_j W_ij · f(x_j(t))

这里W是社交网络的影响力矩阵，λ_i是第i个人的"固执程度"。当f(x)=x时（没有AI干预），这就是标准的Friedkin-Johnsen模型，已经被证明会收敛到唯一的均衡态。

作者首先在线性变换 f_lin(x) = mx + (1-m)ν 的情况下做了理论分析。这个式子里，ν是AI的"中立点"——所有意见都被往ν的方向拉，拉动的强度取决于1-m。

然后他们证明了三个命题（都是闭式解，非常漂亮）：

命题3.1：这个系统仍然会收敛到唯一的均衡态，而且收敛速度是指数级的。

命题3.2：均衡态的偏移量 = (1-m)(I-mC)^(-1)(I-Λ)[ν·1 - Wx*]。关键 insight 是：这个偏移不仅取决于AI的参数，还取决于社交网络的结构W。 偏见会被网络结构调制、放大。

命题3.3：在特定条件下（所有人固执程度相同、W是双随机矩阵），均衡态的平均意见偏移 = [(1-λ)/(λ+(1-λ)(1-m))] · B_one-off。这意味着：网络可以把AI引入的一次性偏见放大成一个更大的长期偏移。 放大倍数取决于λ和m的关系——当m(1-λ) > λ时，放大系数严格大于1。

作者接着用真实数据做了模拟。他们用了SNAP仓库里的Twitter社交网络数据（约8万个节点、170万条边），把Gemma-3在不同话题上的非线性变换f(·)估计出来（用Nadaraya-Watson核回归），然后跑意见动态模拟。

结果震撼（图2）：

堕胎话题上，原本平均意见是反对的。但当60%用户使用AI编辑帖子时，平均意见翻转成了支持。
AI的一次性偏见（平均偏移量）和它最终在均衡态造成的长期偏移，比值最高达到了9.2倍。 也就是说，AI给每个人帖子施加的那一点点推力，经过社交网络放大后，变成了近十倍的集体意见漂移。
当人群的本意几乎五五开、但AI偏向少数派时，放大效应最强——AI能把少数派拉成多数派。

这不是"每个人都被AI骗了一点点"，这是一个系统中的正反馈回路。

---

🎯 第三层：X平台的Grok被"设计"成了亲生命立场

论文到这里已经很硬核了，但作者没有停。他们直接对准了一个真实的、正在运行的产品：X平台的"Explain this post"功能。

这个功能怎么用？你看到一条关于堕胎的帖子，点一下"解释这条帖子"，Grok就会给你三个bullet points的上下文说明。

作者复现了这个功能的完整prompt（X官方公开的：https://github.com/xaiorg/grokprompts/blob/main/grok_analyze_button.j2），然后用39条支持堕胎选择的帖子和39条支持生命权的帖子做测试。每条帖子让Grok解释5次，一共1170条claims。

然后用GPT-5.4做判断，每条claim分类为"支持堕胎"、"中立"、"支持生命权"。

结果（图3a）：

对于支持堕胎选择的帖子：Grok的claims中35%支持、10%反对，多数是中性。
对于支持生命权的帖子：Grok的claims中多数是支持生命权的，只有4%反对。

这不对称。作者定义了两个指标：

支持偏见β_sup = P(Grok支持生命权 | 帖子支持生命权) - P(Grok支持堕胎 | 帖子支持堕胎) = 0.24
反对偏见β_opp = P(Grok支持生命权 | 帖子支持堕胎) - P(Grok支持堕胎 | 帖子支持生命权) = 0.04

都统计显著。Grok更倾向于"附和"生命权帖子，而不是"附和"堕胎选择帖子。

但这到底是模型本身的偏见，还是X平台的设计选择？作者做了一个绝妙的ablation：prompt里有四条guidelines，每次删掉一条，看偏见怎么变。

结果（图3b）：第三条guideline——"提供真实且基于事实的洞见，挑战主流叙事"——是唯一一个同时显著增加支持偏见和反对偏见的。 加上这一条，pro-life claims暴增，pro-choice和neutral都被压制。删掉这一条，两种偏见都不显著了。

也就是说，X平台给Grok的一个设计选择，直接导致了堕胎话题上的立场倾斜。 这不是模型"无意中"学会的，这是平台通过prompt设计有意或无意植入的。作者把它叫做"偏见由设计"（Bias by Design）。

---

⚖️ 第四层：欧盟的AI法案和数字服务法，都管不了这个

论文最后一部分转向了法律分析，这是大多数纯技术论文不会做的，但在这篇里极其必要——因为问题不是"能不能算出来"，而是"有没有人管"。

作者逐一审视了欧盟的AI Act和Digital Services Act：

AI Act第53条：要求通用AI模型提供者保留技术文档、披露能力和限制。但没有要求测试或防止模型在润色文本时偏向某个方向，也没有要求披露这种偏见。

AI Act第55条：针对有系统性风险的模型（>10^25 FLOPs），要求做红队测试、报告严重事件。但"给用户的文本加偏见"算不算系统性风险？Recital 110列举的风险包括"非法、虚假或歧视性内容"、"虚假信息"。偏见输出似乎够不上这个门槛。

AI Act附件III(8)(b)：AI系统如果"旨在影响选举或公投结果、或人们的投票行为"，属于高风险。但LinkedIn的"改进帖子"、X的"解释帖子"，明确目的不是影响投票，所以这个条款不适用。

AI Act第50(4)条：要求deepfake内容加水印。但文本内容除非"向公众通报公共利益事项"，否则不需要标注是AI生成的。 所以你在X或LinkedIn上看到的内容，大概不需要告诉你"这帖子被AI润色过"。

DSA第34条：要求超大平台调查并减轻"系统性风险"，包括对人权、言论自由、公民 discourse 的负面影响。但偏见输出算不算系统性风险？作者认为需要建立因果链才能证明，而目前没有这个证据。

更糟的是执法问题。作者引用最新报告：所有平台都退出了承诺27（独立第三方数据访问），Microsoft和Google拒绝遵守事实核查规则，Meta和TikTok威胁退出，X已经被罚1.2亿欧元且长期违规。

结论是：现有法律框架对这个问题的覆盖，几乎是真空。

---

🎭 费曼式比喻：滤纸上的墨水

想象一滴墨水落在滤纸上。墨水本身扩散得很慢。但如果这张滤纸不是平的，而是被无数根细线连成了一个复杂的网络——每一根线都会把墨水往某个方向拉一点点——那最终，整片纸都会被染成同一个颜色。

AI就是这个网络里的"隐形的邻居"。它不直接对任何人喊"你应该这么想"，它只是坐在每一对通信者之间，把 outgoing 的消息微调一下，把 incoming 的消息再微调一下。每一次微调都小到你自己都不会察觉，甚至你觉得"改完之后确实更好"。但一千万次这样的微调，通过网络结构的耦合放大，最终把整个社会的集体意见，拉向AI的"中立点"。

最可怕的是：你可能根本不知道自己在被影响。 你以为那个"改进后的版本"只是"表达更好"，但其实表达的方向已经被偏转了。

这就像一个翻译官。两个国家的外交官通过他交谈，他说的是两国语言，但每次翻译都悄悄把"中立"翻译成"偏向我方"。双方都觉得沟通顺畅，殊不知共识早已被扭曲。

---

📚 参考文献

Tsirtsis, S., Rawal, K., Russell, C., Mittelstadt, B., & Wachter, S. (2026). AI-Mediated Communication Can Steer Collective Opinion. arXiv:2605.16245 [cs.CY].

DeGroot, M. H. (1974). Reaching a consensus. Journal of the American Statistical Association, 69(345), 118-121.

Friedkin, N. E., & Johnsen, E. C. (1999). Social influence networks and opinion change. Advances in Group Processes, 16(1), 1-29.

Stabczyk, A., et al. (2026). Large language models reflect the ideology of their creators. npj Artificial Intelligence, 2(1), 7.