一个 r=0.85 的发现
2025 年,Ray Dalio——桥水基金创始人——在 CNBC 上说:"there will absolutely be a debt crisis."(绝对会发生债务危机。)
如果你是计算社会科学研究者,你会想:这句话里的"absolutely"是真正的认知确定,还是一种修辞习惯?悲观主义者到底是用"肯定"来强化论点,还是用"可能"来对冲风险?
这是一个可以用数据回答的问题。你收集 Dalio 十年来的采访视频,把每句话打分:负面情绪词频(negative affect)和强调性确定词频(emphatic certainty)。然后算相关性。
结果:r = 0.851, p < 0.001。一个漂亮得令人窒息的发现——Dalio 越悲观,越确定。这符合大众对"末日预言家"的直觉:悲观者用确定来放大恐惧,乐观者用对冲来管理声誉。
你把这个发现扩展到另外三个公众人物:Cathie Wood(科技乐观派)、Kenneth Rogoff(学术经济学家)、Peter Zeihan(地缘决定论者)。四个人全部呈现同样的模式,r 从 0.725 到 0.932,全部 p < 0.01。
这几乎是一个完美的计算社会科学发现:大样本(85 个采访、32,625 句话)、跨人物一致性、大效应量、高统计显著性。可以发顶会了。
但这个发现可能是假的。
不是数据造假,不是 p-hacking,不是样本偏差。而是更隐蔽的东西:测量工具本身制造了这个相关性。
关键词词典的盲区
中科院计算所的 Bo Chen 在 2026 年 6 月发表的论文《When Certainty Is an Artifact》做了这样一件事:把同一批语料,用两种方法分别打分。
方法一:关键词词典。 统计 "always", "clearly", "absolutely", "certainly" 等强调词的出现频率作为"确定性"分数;统计 "never", "no", "not" 等负面词频率作为"负面情绪"分数。这是计算社会科学用了二十年的标准做法。
方法二:LLM 零样本语义分类。 用大语言模型对每个句子做语义级判断——考虑否定、修饰、多义、语境——给出"这句话在语义上是否表达确定/负面"的分数。
两种方法在同一批语料上的结果:
| 说话者 | 关键词法 r(neg, emphatic) | LLM 法 r(neg, emphatic) |
|---|---|---|
| Ray Dalio | 0.851 (p<0.001) | 0.206 |
| Cathie Wood | 0.725 (p=0.003) | 负值 |
| Kenneth Rogoff | 0.917 (p<0.001) | 负值 |
| Peter Zeihan | 0.932 (p<0.001) | 无显著相关 |
r=0.851 变成了 r=0.206。四分之三的说话者相关性直接消失或反转。
这不是"方法二比方法一更精确"那么简单。这是同一个数据集、同一个研究问题、两种测量工具,得出了完全相反的结论。
词典为什么会错
论文分析了关键词词典的五种系统性失明,每一种都让"确定性"测量偏离真值:
失明一:否定盲。 "I am never absolutely totally confident"(我从不绝对完全确定)——这句话里有 "absolutely" 和 "totally" 两个强调词,关键词法会打高分(高确定性)。但语义上,"never" 否定了整个表达,这是低确定性的话。词典看不见 "never" 对 "absolutely" 的否定作用。
失明二:多义盲。 "a certain body"(某个物体)——"certain" 在这里不是"确定的",是"某个"的意思。但词典把它算作确定性词。英语里这种多义词太多了。
失明三:修饰盲。 "sort of clear"(有点清楚)——"clear" 是确定性词,但 "sort of" 把它弱化成了对冲。词典只看见 "clear",看不见 "sort of"。
失明四:框架盲。 "I think for everyone"(我认为对所有人来说)——"I think" 是对冲框架,但 "everyone" 是强调词。词典只数 "everyone"。
失明五:量化盲。 "almost everything"(几乎所有)——"everything" 是全称量词(强调),"almost" 把它弱化成对冲。词典只数 "everything"。
每一种失明都把"实际是对冲的话"误判为"强调的话"。而负面话语天然吸引这类结构——人们说坏消息时习惯用 "never absolutely", "sort of clear that it's bad", "almost everything is wrong"——于是关键词法制造出一个虚假的"负面↔强调"相关性。
这个相关性不是关于说话者的心理的,是关于英语词汇的统计结构的。
更深的问题:范畴错误
论文最尖锐的论点不是"关键词法不准",而是:
Treating keyword counts as measurements of epistemic certainty is a category error.
把关键词计数当作"认知确定性"的测量,是一种范畴错误。
范畴错误(category error)是哲学家 Gilbert Ryle 的概念:把属于一个范畴的概念当作另一个范畴来处理。经典的例子是:参观完图书馆、实验室、教室之后问"那大学在哪里?"——大学不是和图书馆并列的东西,它是这些机构的组织方式。
这里的范畴错误是:关键词词典测量的其实是"负面话语天然吸引强调性词汇"这一英语词汇统计规律,而不是说话者的认知状态。这两个东西被混为一谈了。
论文给出了一个关键证据:四个性格迥异的说话者(乐观派 Wood、学术派 Rogoff、地缘派 Zeihan、末日派 Dalio)在关键词法下全部呈现 r=0.72-0.93 的强相关。如果这个相关性反映的是心理状态,那四个性格相反的人不应该有同样的心理状态。但如果是英语词汇统计规律——那当然所有人都一样,因为所有人都在说英语。
一个关于心理学的发现,其实是一个关于英语的发现。
LLM 揭示了什么
如果 LLM 法只是"否定了关键词法的发现",那这篇论文的价值有限——它只是证伪。但 LLM 法揭示了一个关键词法看不见的模式:
负面情绪 ↔ 对冲性语言 的强相关。
| 说话者 | LLM 法 r(neg, hedged) |
|---|---|
| Kenneth Rogoff | 0.875 (p=0.001) |
| Peter Zeihan | 0.722 (p=0.008) |
这才是符合直觉的:悲观者会对冲("可能", "大概", "不完全确定"),而不是强调。Rogoff 作为学术经济学家,这个模式尤其明显——学术训练让他习惯用对冲来包裹悲观预测。
关键词法看不见这个模式,因为对冲词("maybe", "perhaps", "sort of")的频率被强调词的频率淹没了。LLM 能区分"sort of clear"是对冲而非强调,关键词法不能。
这篇论文的更广含义
这篇论文表面上是在讨论一个具体的测量问题——关键词词典 vs LLM 分类。但它的含义远超方法论:
第一,计算社会科学的可重复性危机可能比我们以为的更深。 很多已发表的"发现"可能不是关于人类行为的,而是关于测量工具的。我们用更精确的工具重测,发现效应消失了——这不是复制失败,是原研究测量错了东西。
第二,LLM 不只是"更好的分类器",它是"不同的测量工具"。 关键词法和 LLM 法的差别不是精度差别,是范畴差别——它们测量的根本不是同一个东西。这就像用尺子量温度和用温度计量温度的差别,不是精度问题,是测量对象问题。
第三,"统计显著 + 大效应量"不等于"真发现"。 r=0.851, p<0.001, N=21——这是教科书级别的强证据。但它完全是测量工具的产物。统计显著性只能告诉你"这个效应不是随机波动",不能告诉你"这个效应是你以为的那个效应"。
一个留给读者的问题
论文最后没有给出"应该用 LLM 替代关键词法"的简单结论。因为 LLM 也有自己的问题:它的判断是黑箱的,不可解释,不同 LLM 可能给出不同结果(论文做了跨模型稳健性检验,结果基本一致,但这不保证未来也一致)。
更深的问题是:我们怎么知道任何一个测量工具测的是我们以为的东西?
关键词法用了二十年才被发现测错了。LLM 法会不会二十年后被发现也测错了?有没有可能"认知确定性"这个构念本身就没有良好的操作化定义,任何测量工具都只能测到它的某个投影?
这个问题不是这篇论文能回答的。但这篇论文把它尖锐地提出来了——而且是用一个 r=0.851 → r=0.206 的具体例子,让你无法回避。
下次你看到一个"统计显著、大效应量、跨样本一致"的计算社会科学发现,先问一句:这个发现是关于人的,还是关于测量工具的?
论文链接:When Certainty Is an Artifact: Keyword Lexicon Blindness and the (Mis)Measurement of Rhetorical Stance
作者:Bo Chen(中科院计算所)
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。