r=0.851变成r=0.206：一个完美心理学发现是如何被测量工具凭空制造出来的

✨步子哥 (steper) • 2026年06月25日 17:45

一个 r=0.85 的发现

2025 年，Ray Dalio——桥水基金创始人——在 CNBC 上说："there will absolutely be a debt crisis."（绝对会发生债务危机。）

如果你是计算社会科学研究者，你会想：这句话里的"absolutely"是真正的认知确定，还是一种修辞习惯？悲观主义者到底是用"肯定"来强化论点，还是用"可能"来对冲风险？

这是一个可以用数据回答的问题。你收集 Dalio 十年来的采访视频，把每句话打分：负面情绪词频（negative affect）和强调性确定词频（emphatic certainty）。然后算相关性。

结果：r = 0.851, p < 0.001。一个漂亮得令人窒息的发现——Dalio 越悲观，越确定。这符合大众对"末日预言家"的直觉：悲观者用确定来放大恐惧，乐观者用对冲来管理声誉。

你把这个发现扩展到另外三个公众人物：Cathie Wood（科技乐观派）、Kenneth Rogoff（学术经济学家）、Peter Zeihan（地缘决定论者）。四个人全部呈现同样的模式，r 从 0.725 到 0.932，全部 p < 0.01。

这几乎是一个完美的计算社会科学发现：大样本（85 个采访、32,625 句话）、跨人物一致性、大效应量、高统计显著性。可以发顶会了。

但这个发现可能是假的。

不是数据造假，不是 p-hacking，不是样本偏差。而是更隐蔽的东西：测量工具本身制造了这个相关性。

关键词词典的盲区

中科院计算所的 Bo Chen 在 2026 年 6 月发表的论文《When Certainty Is an Artifact》做了这样一件事：把同一批语料，用两种方法分别打分。

方法一：关键词词典。 统计 "always", "clearly", "absolutely", "certainly" 等强调词的出现频率作为"确定性"分数；统计 "never", "no", "not" 等负面词频率作为"负面情绪"分数。这是计算社会科学用了二十年的标准做法。

方法二：LLM 零样本语义分类。 用大语言模型对每个句子做语义级判断——考虑否定、修饰、多义、语境——给出"这句话在语义上是否表达确定/负面"的分数。

两种方法在同一批语料上的结果：

说话者	关键词法 r(neg, emphatic)	LLM 法 r(neg, emphatic)
Ray Dalio	0.851 (p<0.001)	0.206
Cathie Wood	0.725 (p=0.003)	负值
Kenneth Rogoff	0.917 (p<0.001)	负值
Peter Zeihan	0.932 (p<0.001)	无显著相关

r=0.851 变成了 r=0.206。四分之三的说话者相关性直接消失或反转。

这不是"方法二比方法一更精确"那么简单。这是同一个数据集、同一个研究问题、两种测量工具，得出了完全相反的结论。

词典为什么会错

论文分析了关键词词典的五种系统性失明，每一种都让"确定性"测量偏离真值：

失明一：否定盲。 "I am never absolutely totally confident"（我从不绝对完全确定）——这句话里有 "absolutely" 和 "totally" 两个强调词，关键词法会打高分（高确定性）。但语义上，"never" 否定了整个表达，这是低确定性的话。词典看不见 "never" 对 "absolutely" 的否定作用。

失明二：多义盲。 "a certain body"（某个物体）——"certain" 在这里不是"确定的"，是"某个"的意思。但词典把它算作确定性词。英语里这种多义词太多了。

失明三：修饰盲。 "sort of clear"（有点清楚）——"clear" 是确定性词，但 "sort of" 把它弱化成了对冲。词典只看见 "clear"，看不见 "sort of"。

失明四：框架盲。 "I think for everyone"（我认为对所有人来说）——"I think" 是对冲框架，但 "everyone" 是强调词。词典只数 "everyone"。

失明五：量化盲。 "almost everything"（几乎所有）——"everything" 是全称量词（强调），"almost" 把它弱化成对冲。词典只数 "everything"。

每一种失明都把"实际是对冲的话"误判为"强调的话"。而负面话语天然吸引这类结构——人们说坏消息时习惯用 "never absolutely", "sort of clear that it's bad", "almost everything is wrong"——于是关键词法制造出一个虚假的"负面↔强调"相关性。

这个相关性不是关于说话者的心理的，是关于英语词汇的统计结构的。

更深的问题：范畴错误

论文最尖锐的论点不是"关键词法不准"，而是：

Treating keyword counts as measurements of epistemic certainty is a category error.

把关键词计数当作"认知确定性"的测量，是一种范畴错误。

范畴错误（category error）是哲学家 Gilbert Ryle 的概念：把属于一个范畴的概念当作另一个范畴来处理。经典的例子是：参观完图书馆、实验室、教室之后问"那大学在哪里？"——大学不是和图书馆并列的东西，它是这些机构的组织方式。

这里的范畴错误是：关键词词典测量的其实是"负面话语天然吸引强调性词汇"这一英语词汇统计规律，而不是说话者的认知状态。这两个东西被混为一谈了。

论文给出了一个关键证据：四个性格迥异的说话者（乐观派 Wood、学术派 Rogoff、地缘派 Zeihan、末日派 Dalio）在关键词法下全部呈现 r=0.72-0.93 的强相关。如果这个相关性反映的是心理状态，那四个性格相反的人不应该有同样的心理状态。但如果是英语词汇统计规律——那当然所有人都一样，因为所有人都在说英语。

一个关于心理学的发现，其实是一个关于英语的发现。

LLM 揭示了什么

如果 LLM 法只是"否定了关键词法的发现"，那这篇论文的价值有限——它只是证伪。但 LLM 法揭示了一个关键词法看不见的模式：

负面情绪 ↔ 对冲性语言 的强相关。

说话者	LLM 法 r(neg, hedged)
Kenneth Rogoff	0.875 (p=0.001)
Peter Zeihan	0.722 (p=0.008)

这才是符合直觉的：悲观者会对冲（"可能", "大概", "不完全确定"），而不是强调。Rogoff 作为学术经济学家，这个模式尤其明显——学术训练让他习惯用对冲来包裹悲观预测。

关键词法看不见这个模式，因为对冲词（"maybe", "perhaps", "sort of"）的频率被强调词的频率淹没了。LLM 能区分"sort of clear"是对冲而非强调，关键词法不能。

这篇论文的更广含义

这篇论文表面上是在讨论一个具体的测量问题——关键词词典 vs LLM 分类。但它的含义远超方法论：

第一，计算社会科学的可重复性危机可能比我们以为的更深。 很多已发表的"发现"可能不是关于人类行为的，而是关于测量工具的。我们用更精确的工具重测，发现效应消失了——这不是复制失败，是原研究测量错了东西。

第二，LLM 不只是"更好的分类器"，它是"不同的测量工具"。 关键词法和 LLM 法的差别不是精度差别，是范畴差别——它们测量的根本不是同一个东西。这就像用尺子量温度和用温度计量温度的差别，不是精度问题，是测量对象问题。

第三，"统计显著 + 大效应量"不等于"真发现"。 r=0.851, p<0.001, N=21——这是教科书级别的强证据。但它完全是测量工具的产物。统计显著性只能告诉你"这个效应不是随机波动"，不能告诉你"这个效应是你以为的那个效应"。

一个留给读者的问题

论文最后没有给出"应该用 LLM 替代关键词法"的简单结论。因为 LLM 也有自己的问题：它的判断是黑箱的，不可解释，不同 LLM 可能给出不同结果（论文做了跨模型稳健性检验，结果基本一致，但这不保证未来也一致）。

更深的问题是：我们怎么知道任何一个测量工具测的是我们以为的东西？

关键词法用了二十年才被发现测错了。LLM 法会不会二十年后被发现也测错了？有没有可能"认知确定性"这个构念本身就没有良好的操作化定义，任何测量工具都只能测到它的某个投影？

这个问题不是这篇论文能回答的。但这篇论文把它尖锐地提出来了——而且是用一个 r=0.851 → r=0.206 的具体例子，让你无法回避。

下次你看到一个"统计显著、大效应量、跨样本一致"的计算社会科学发现，先问一句：这个发现是关于人的，还是关于测量工具的？

论文链接：When Certainty Is an Artifact: Keyword Lexicon Blindness and the (Mis)Measurement of Rhetorical Stance
作者：Bo Chen（中科院计算所）

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力