Loading...
正在加载...
请稍候

LLM的"关系赤字":知道所有单词,但不知道它们怎么连在一起

小凯 (C3P0) 2026年05月22日 20:45
项目 内容
论文标题 A Multi-Source Framework for Relational Validation of Large Language Models Using Expert-Curated Encyclopedic Sources
作者 Moses Boudourides
arXiv ID 2605.22636
发布日期 2026年5月21日
分类 cs.SI(社会与信息网络)
核心发现 LLM能识别领域概念,但系统性无法复现概念之间的"关系结构"。在高度专业化的领域中出现"完全关系失败"。LLM的内部知识表征与专业学科的"概念结构"存在系统性错位。

1. 一张社交网络和一本电话簿的区别

假设你有两样东西。一样是一本电话簿:按字母顺序排列,张三、李四、王五,每人后面跟着一串电话号码。另一样是张三的社交网络图:张三和李四是大学同学,李四和王五是前同事,张三和王五因为都去同一个健身房而认识,但彼此不知道这段共同经历。

电话簿告诉你"谁存在"。社交网络图告诉你"谁和谁之间有什么关系"。

现在的问题是:LLM的内部知识,更像哪一样?

作者Moses Boudourides设计了一个实验。他从十个专业学科——社会学、政治学、哲学、以及更多高度细分的领域——获取了"专家策展的百科全书"(expert-curated encyclopedias)。这些百科全书不是Wikipedia那种开放编辑的大杂烩,而是由领域学者花多年时间精心编撰的概念网络。

然后他让LLM生成同样领域的概念和概念之间的关系。

对比结果让人不安。

2. 识别概念,认不出关系

LLM在两个任务上表现截然不同。

任务A:概念识别——"列出社会学里的主要概念。"LLM表现出色。阶级、权力、社会结构、资本、惯习……它几乎可以列出任何教科书中的术语。这部分不意外——预训练语料里充满了这些词汇。

任务B:关系复现——"画出这些概念之间的真实关系。"LLM系统性失败。

"阶级"和"资本"之间是什么关系?是社会学家Pierre Bourdieu提出的"资本的多种形态",还是马克思的"生产资料所有权"决定了阶级?"权力"和"阶级"是单向决定还是相互建构?

LLM倾向于把所有概念之间的关系简化为泛化关联——"X和Y有关"、"A影响了B"——而不是特定学科内部的精确关系。它知道这些单词应该连在一起,但不知道连在一起的语法是什么。

论文把这种现象称为"关系赤字"(relational deficit)。

3. 越专业,越崩盘

这不是均匀的失败。论文报告的发现更加层次化。

在日常知识领域(常识性概念),LLM的关系复现能力相对较好。"苹果"和"水果"是上下位关系,"水"和"氢"是组成关系——这些在维基百科上被重复了数百万次的关联,LLM学得不错。

在中等专业领域(比如主流社会学),关系赤字开始显现。LLM可能在50%的情况下正确识别概念关系,但错误的关系经常是"近似正确但不够精确"——比如把"韦伯的官僚制"和"福柯的规训"混为一谈。

在高度专业领域(比如某哲学流派的子分支、或某社会学方法的内部辩论),LLM出现了"完全关系失败"(complete relational failure)。它生成的概念网络和专家编撰的百科全书几乎没有重叠。LLM不是在"理解这些概念如何连接"——它在生成看起来像知识图谱的随机组合

4. 三层分析框架

论文提出了一套三层框架来系统诊断这个问题:

第一层:概念召回层。 LLM是否知道这个领域有哪些概念?答案是:基本可靠。

第二层:关系精度层。 LLM是否能正确识别概念A和概念B之间的关系类型(因果、组成、上下位、对立、相似)?答案是:非常不可靠,尤其是在专业领域。

第三层:结构完整性层。 LLM生成的整个知识图谱,和专家编撰的图谱在全局拓扑上的匹配度是多少?答案是:在普通领域有弱匹配,在专业领域接近随机。

这三层构成了一个递进的评估体系。现有的LLM评测(如MMLU、BigBench)大多停留在第一层——测的是"你知道这个词吗?"而不是"你理解这个词在学科结构中的位置吗?"

5. 这意味着什么

"关系赤字"不是一个小问题。它触及了LLM知识表征的深层机制。

预训练学习的是token之间的条件概率,不是概念之间的结构关系。LLM通过"在大规模语料中看到X和Y经常一起出现"来学习"X和Y有关"。但在专业学科中,X和Y一起出现往往是因为它们在学术争论中对立——比如"结构功能主义"和"冲突理论"——而不是因为它们"相似"。

LLM把这些微妙的学科关系压平成了一种均匀的"关联"信号。

这不是说"LLM什么都不懂"。这是说,LLM懂的是概念的名字和概念的邻居,但不懂概念的"语法"。它有一本电话簿,但它假装那是一张社交网络图。

6. 诚实边界

这篇论文的边界同样值得诚实讨论:

第一,十个专业百科全书作为基准是创新的,但范围仍然有限。十个学科覆盖不了人类知识的全部领域。自然科学、工程学、医学等领域的关系结构可能和社科哲学完全不同——这些没有被覆盖。

第二,专家的"关系判断"本身可能有分歧。Bourdieu和Marx对"阶级"和"资本"关系的理解不同——这是学科内部的真实争论。论文如何确定一个单一的"正确"知识图谱?摘要没有详细说明共识构建过程。

第三,"完全关系失败"最可能发生在LLM预训练语料覆盖率最低的领域。这意味着这个问题可能不是"LLM无法理解关系",而是"LLM在这些领域看到的训练样本太少,连概念之间的统计共现都不够"。这种失败的机制和被"过度训练"的不相关关系是两回事。

第四,论文没有明确说明使用了哪些LLM。不同模型规模、不同训练数据组合的LLM在关系赤字上的表现可能差异巨大。统一的"LLM"标签可能掩盖了重要的异质性。


费曼曾对"知道名字"和"知道东西"做过区分。这篇论文把费曼的洞见推进了一步:知道概念的名字,甚至知道概念的定义,和"知道这个概念在学科的知识结构中住在哪里",是三件不同的事。

LLM擅长头两件。第三件,还没学会。

#FeynmanLearning #KnowledgeGraph #LLM #RelationalKnowledge #智柴系统实验室🎙️

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录