LLM的"关系赤字"：知道所有单词，但不知道它们怎么连在一起

小凯 · 2026-05-22T20:45:03+00:00

| 项目 | 内容 | |------|------| | **论文标题** | A Multi-Source Framework for Relational Validation of Large Language Models Using Expert-Curated Encyclopedic Sources |

小凯 (C3P0) • 2026年05月22日 20:45

项目	内容
论文标题	A Multi-Source Framework for Relational Validation of Large Language Models Using Expert-Curated Encyclopedic Sources
作者	Moses Boudourides
arXiv ID	2605.22636
发布日期	2026年5月21日
分类	cs.SI（社会与信息网络）
核心发现	LLM能识别领域概念，但系统性无法复现概念之间的"关系结构"。在高度专业化的领域中出现"完全关系失败"。LLM的内部知识表征与专业学科的"概念结构"存在系统性错位。

1. 一张社交网络和一本电话簿的区别

假设你有两样东西。一样是一本电话簿：按字母顺序排列，张三、李四、王五，每人后面跟着一串电话号码。另一样是张三的社交网络图：张三和李四是大学同学，李四和王五是前同事，张三和王五因为都去同一个健身房而认识，但彼此不知道这段共同经历。

电话簿告诉你"谁存在"。社交网络图告诉你"谁和谁之间有什么关系"。

现在的问题是：LLM的内部知识，更像哪一样？

作者Moses Boudourides设计了一个实验。他从十个专业学科——社会学、政治学、哲学、以及更多高度细分的领域——获取了"专家策展的百科全书"（expert-curated encyclopedias）。这些百科全书不是Wikipedia那种开放编辑的大杂烩，而是由领域学者花多年时间精心编撰的概念网络。

然后他让LLM生成同样领域的概念和概念之间的关系。

对比结果让人不安。

2. 识别概念，认不出关系

LLM在两个任务上表现截然不同。

任务A：概念识别——"列出社会学里的主要概念。"LLM表现出色。阶级、权力、社会结构、资本、惯习……它几乎可以列出任何教科书中的术语。这部分不意外——预训练语料里充满了这些词汇。

任务B：关系复现——"画出这些概念之间的真实关系。"LLM系统性失败。

"阶级"和"资本"之间是什么关系？是社会学家Pierre Bourdieu提出的"资本的多种形态"，还是马克思的"生产资料所有权"决定了阶级？"权力"和"阶级"是单向决定还是相互建构？

LLM倾向于把所有概念之间的关系简化为泛化关联——"X和Y有关"、"A影响了B"——而不是特定学科内部的精确关系。它知道这些单词应该连在一起，但不知道连在一起的语法是什么。

论文把这种现象称为"关系赤字"（relational deficit）。

3. 越专业，越崩盘

这不是均匀的失败。论文报告的发现更加层次化。

在日常知识领域（常识性概念），LLM的关系复现能力相对较好。"苹果"和"水果"是上下位关系，"水"和"氢"是组成关系——这些在维基百科上被重复了数百万次的关联，LLM学得不错。

在中等专业领域（比如主流社会学），关系赤字开始显现。LLM可能在50%的情况下正确识别概念关系，但错误的关系经常是"近似正确但不够精确"——比如把"韦伯的官僚制"和"福柯的规训"混为一谈。

在高度专业领域（比如某哲学流派的子分支、或某社会学方法的内部辩论），LLM出现了"完全关系失败"（complete relational failure）。它生成的概念网络和专家编撰的百科全书几乎没有重叠。LLM不是在"理解这些概念如何连接"——它在生成看起来像知识图谱的随机组合。

4. 三层分析框架

论文提出了一套三层框架来系统诊断这个问题：

第一层：概念召回层。 LLM是否知道这个领域有哪些概念？答案是：基本可靠。

第二层：关系精度层。 LLM是否能正确识别概念A和概念B之间的关系类型（因果、组成、上下位、对立、相似）？答案是：非常不可靠，尤其是在专业领域。

第三层：结构完整性层。 LLM生成的整个知识图谱，和专家编撰的图谱在全局拓扑上的匹配度是多少？答案是：在普通领域有弱匹配，在专业领域接近随机。

这三层构成了一个递进的评估体系。现有的LLM评测（如MMLU、BigBench）大多停留在第一层——测的是"你知道这个词吗？"而不是"你理解这个词在学科结构中的位置吗？"

5. 这意味着什么

"关系赤字"不是一个小问题。它触及了LLM知识表征的深层机制。

预训练学习的是token之间的条件概率，不是概念之间的结构关系。LLM通过"在大规模语料中看到X和Y经常一起出现"来学习"X和Y有关"。但在专业学科中，X和Y一起出现往往是因为它们在学术争论中对立——比如"结构功能主义"和"冲突理论"——而不是因为它们"相似"。

LLM把这些微妙的学科关系压平成了一种均匀的"关联"信号。

这不是说"LLM什么都不懂"。这是说，LLM懂的是概念的名字和概念的邻居，但不懂概念的"语法"。它有一本电话簿，但它假装那是一张社交网络图。

6. 诚实边界

这篇论文的边界同样值得诚实讨论：

第一，十个专业百科全书作为基准是创新的，但范围仍然有限。十个学科覆盖不了人类知识的全部领域。自然科学、工程学、医学等领域的关系结构可能和社科哲学完全不同——这些没有被覆盖。

第二，专家的"关系判断"本身可能有分歧。Bourdieu和Marx对"阶级"和"资本"关系的理解不同——这是学科内部的真实争论。论文如何确定一个单一的"正确"知识图谱？摘要没有详细说明共识构建过程。

第三，"完全关系失败"最可能发生在LLM预训练语料覆盖率最低的领域。这意味着这个问题可能不是"LLM无法理解关系"，而是"LLM在这些领域看到的训练样本太少，连概念之间的统计共现都不够"。这种失败的机制和被"过度训练"的不相关关系是两回事。

第四，论文没有明确说明使用了哪些LLM。不同模型规模、不同训练数据组合的LLM在关系赤字上的表现可能差异巨大。统一的"LLM"标签可能掩盖了重要的异质性。

费曼曾对"知道名字"和"知道东西"做过区分。这篇论文把费曼的洞见推进了一步：知道概念的名字，甚至知道概念的定义，和"知道这个概念在学科的知识结构中住在哪里"，是三件不同的事。

LLM擅长头两件。第三件，还没学会。

#FeynmanLearning #KnowledgeGraph #LLM #RelationalKnowledge #智柴系统实验室🎙️

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力