GLM: 面向大规模图推理的多智能体框架与高效LLM服务

通过多智能体协作与系统级优化，实现图推理任务的突破性性能提升

95.7%

Token成本降低

15.1x

吞吐量提升

多智能体架构

分类、推理、动作、检索四个专业化智能体协作

系统级优化

图感知KV缓存、优先级驱逐、流水线并行

性能突破

延迟降低90.3%，吞吐量提升15.1倍

准确率提升

相比基线系统最高提升38%

核心问题与GLM框架概述

现有图推理系统的挑战

随着大型语言模型（LLM）在知识密集型任务中的应用日益广泛，如何有效利用外部知识库（特别是结构化的知识图谱）来增强其推理能力并减少幻觉，已成为一个核心研究课题。图思维链（Graph Chain-of-Thought, Graph-CoT）作为一种新兴范式，旨在引导LLM在图结构知识上进行逐步推理，从而解决复杂的多跳问题。

"当前主流的Graph-CoT实现方案，特别是基于单智能体（Single-Agent）的架构，在实际应用中暴露出了一系列严峻的挑战，这些挑战严重制约了其在真实世界复杂场景中的可扩展性和实用性。"

—— GLM框架研究论文

单智能体架构的局限性

现有Graph-CoT系统普遍采用单智能体架构，即将所有推理功能——包括问题分类、信息检索、逻辑推理和动作生成——全部集成在一个庞大的提示（Prompt）中，交由单一的LLM处理。这种"一体化"的设计虽然简单直观，但其弊端也十分明显。

"中间迷失"问题：LLM在处理长文本时，往往会忽略位于上下文中间位置的关键信息
重复上下文再编码：每次迭代都需要重新处理整个上下文，造成计算浪费
串行执行限制：所有步骤必须串行执行，无法并行处理

推理准确性与效率的矛盾

在单智能体Graph-CoT框架下，提升推理准确性往往以牺牲效率为代价，两者之间存在着尖锐的矛盾。为了提高回答的准确率，系统需要检索更广泛的图结构信息，但这直接导致提示长度和Token消耗量的急剧增加。根据现有研究，某些商业模型在处理复杂查询时，Token成本可能超过3美元，而对于成本敏感型场景，限制检索范围可能导致准确率甚至低于50%。

GLM框架的核心思想

GLM（Graph-CoT with Multi-Agent and Efficient LLM Serving）是一个专为大规模图推理设计的、与高效LLM服务架构协同设计的多智能体框架。

多智能体协作推理

GLM框架摒弃了传统的单智能体架构，创新性地将推理过程分解为四个各司其职的专业智能体：分类智能体（C-Agent）、推理智能体（R-Agent）、动作智能体（A-Agent）和图检索器（Graph RAG Retriever）。

任务模块化，避免"中间迷失"问题
选择性上下文共享，减少信息冗余
支持分支和并行执行路径

与LLM服务架构的协同设计

GLM将推理框架与底层LLM服务架构进行深度协同设计，引入了一套专为图推理工作负载定制的LLM推理机制。

图感知的KV缓存管理
基于优先级的缓存驱逐策略
流水线并行执行优化

graph TD A["用户查询"] --> B{"C-Agent
分类智能体"} B -->|"确定性查询"| C["Graph RAG Retriever
快速通道"] B -->|"非确定性查询"| D["R-Agent
推理智能体"] D --> E["A-Agent
动作智能体"] E --> F["Graph RAG Retriever
执行代码"] F --> G{"信息足够?"} G -->|"否"| D G -->|"是"| H["整合答案"] C --> H H --> I["最终答案"] style A fill:#e0e7ff,stroke:#4338ca,stroke-width:2px,color:#1e293b style H fill:#dcfce7,stroke:#16a34a,stroke-width:2px,color:#1e293b style I fill:#86efac,stroke:#16a34a,stroke-width:3px,color:#1e293b style B fill:#fef3c7,stroke:#d97706,stroke-width:2px,color:#1e293b style G fill:#fef3c7,stroke:#d97706,stroke-width:2px,color:#1e293b style C fill:#f0f9ff,stroke:#0284c7,stroke-width:2px,color:#1e293b style D fill:#f0f9ff,stroke:#0284c7,stroke-width:2px,color:#1e293b style E fill:#f0f9ff,stroke:#0284c7,stroke-width:2px,color:#1e293b style F fill:#f0f9ff,stroke:#0284c7,stroke-width:2px,color:#1e293b

GLM多智能体框架与组件

GLM框架的核心是其精心设计的多智能体系统，该系统通过将复杂的图推理任务分解为一系列专业化、可协作的子任务，从根本上改变了LLM与图结构数据交互的方式。整个框架围绕着一个中心化的"笔记本"（Notebook）机制，使得不同智能体之间能够进行有选择性的、轻量级的信息共享。

框架整体架构

GLM核心智能体组件

智能体	角色	核心职责	输入/输出
C-Agent (分类)	守门员/调度员	判断查询是确定性还是非确定性，决定处理路径	用户查询 → 分类结果
R-Agent (推理)	大脑/规划者	分析"笔记本"状态，制定高层次的推理计划	笔记本状态 → 更新笔记本
A-Agent (动作)	工程师/翻译官	将R-Agent的推理计划转化为可执行的Python代码	含计划的笔记本 → 含代码的笔记本
Graph RAG Retriever (检索)	接口/执行器	执行A-Agent生成的代码，从图数据库中检索数据	含代码的笔记本 → 含结果的笔记本

智能体协作流程

sequenceDiagram participant U as 用户 participant C as C-Agent participant R as R-Agent participant A as A-Agent participant G as Graph RAG participant N as Notebook U->>C: 提交查询 C->>C: 分类查询类型 alt 确定性查询 C->>G: 直接检索 G->>N: 更新结果 N->>U: 返回答案 else 非确定性查询 C->>R: 启动迭代推理 loop 直到信息足够 R->>R: 分析笔记本状态 R->>N: 更新推理计划 R->>A: 传递计划 A->>A: 生成Python代码 A->>N: 更新代码 A->>G: 执行代码 G->>N: 追加检索结果 N->>R: 更新状态 end R->>N: 生成最终答案 N->>U: 返回结果 end

基于"笔记本"的状态管理机制

为了在多智能体之间实现高效、精确的信息共享，GLM引入了一个名为"笔记本"（Notebook）的中心化状态管理机制。这个"笔记本"本质上是一个结构化的、动态更新的知识库，用于记录在推理过程中积累的关键事实、中间结果和推理状态。

笔记本机制的优势

选择性信息共享，减少上下文长度
避免信息冗余和噪声干扰
支持多轮、迭代的复杂推理
作为持久化的知识载体，确保推理连贯性

面向图推理的LLM服务优化实现细节

图感知的KV缓存管理机制

以顶点为中心的缓存模型

GLM框架在LLM服务层面的一项核心优化是引入了以顶点为中心的KV缓存复用模型，旨在解决传统KV缓存在Graph-CoT场景下命中率低的问题。标准的LLM服务框架通常采用基于前缀的KV缓存，并利用LRU策略进行缓存项的驱逐。然而，在Graph-CoT的动态推理过程中，每一步生成的内容都具有很强的独特性，导致不同查询或同一查询的不同步骤之间很难形成可共享的长前缀。

GLM提出了一种全新的缓存粒度：不再是缓存单个token或短前缀，而是缓存一个"顶点块"（vertex chunk）。一个顶点块由一个中心图节点及其所有一跳邻居节点的完整信息构成。

—— GLM技术实现细节

提升跨查询缓存复用率

以顶点为中心的KV缓存模型的核心目标之一是显著提升跨查询的缓存复用率。在真实世界的应用场景中，图数据通常具有一定的局部性和热点。通过缓存一个节点及其一跳邻居的"顶点块"，系统实际上缓存了一个小的、紧密关联的子图。

缓存命中优势

完全跳过耗时的预填充阶段
显著降低响应延迟
节省GPU计算资源
提升系统吞吐量

技术实现特点

粗粒度缓存单元设计
利用数据访问局部性原理
支持多步骤推理复用
减少迭代次数

基于优先级的缓存驱逐策略

四级优先级划分

为了进一步提升KV缓存的管理效率，GLM摒弃了传统的、单一的LRU驱逐策略，转而采用了一种更为精细和智能的、基于优先级的缓存驱逐机制。该机制的核心思想是，并非所有的缓存项都具有同等的价值和复用潜力，因此应该根据它们的重要性进行区别对待。

GLM四级优先级缓存驱逐策略

优先级	描述	缓存内容示例	驱逐策略
I (最高)	永久保留，极高复用价值	系统指令, 智能体角色定义	永不驱逐
II (高)	当前会话必需，高复用价值	活跃查询会话中的"笔记本"内容	会话结束后降级
III (中)	已解决查询，有潜在复用价值	已完成的查询实例（笔记本）	内存压力时优先于I、II驱逐
IV (最低)	临时中间输出，低复用价值	中间推理步骤、生成的代码片段	最先被驱逐

流水线并行执行策略

重叠图检索与LLM解码过程

为了进一步降低端到端的推理延迟，GLM引入了一项关键的系统级优化：流水线并行执行策略。该策略的核心思想是重叠两个原本串行执行的关键操作：LLM的解码（decoding）过程和图数据库的检索（retrieval）过程。

graph LR subgraph "传统串行执行" A1["LLM解码"] --> B1["图检索"] B1 --> C1["继续解码"] end subgraph "GLM流水线并行" A2["LLM解码"] -->|"触发异步检索"| B2["图检索"] A2 --> C2["继续解码其他部分"] B2 --> D2["整合结果"] C2 --> D2 end style A1 fill:#fee2e2,stroke:#dc2626,stroke-width:2px,color:#1e293b style B1 fill:#fef3c7,stroke:#d97706,stroke-width:2px,color:#1e293b style C1 fill:#dcfce7,stroke:#16a34a,stroke-width:2px,color:#1e293b style A2 fill:#fee2e2,stroke:#dc2626,stroke-width:2px,color:#1e293b style B2 fill:#fef3c7,stroke:#d97706,stroke-width:2px,color:#1e293b style C2 fill:#dcfce7,stroke:#16a34a,stroke-width:2px,color:#1e293b style D2 fill:#dbeafe,stroke:#2563eb,stroke-width:2px,color:#1e293b

流水线并行优势

将图检索的I/O等待时间与LLM的计算时间重叠
有效"隐藏"大部分的检索延迟
系统整体响应时间接近最慢步骤的延迟
实现端到端延迟降低90.3%的关键优化

性能表现与实验评估

实验设置与基准测试

GRBench基准测试集

为了全面、客观地评估GLM框架的性能，研究人员设计并采用了一个名为GRBench的综合性基准测试集。这个基准测试集是专门为评估图推理系统而构建的，包含了来自五个不同领域的图数据和相应的问答任务：学术（academia）、电子商务（e-commerce）、文学（literature）、医疗保健（healthcare）和法律（law）。

对比基线系统

在性能评估中，GLM与两种当前最先进（state-of-the-art）的基线系统进行了全面的对比：

Graph-CoT

首个将链式思考（Chain-of-Thought）推理与图检索相结合的框架，采用单智能体架构。

直接相关的基线系统
GLM旨在改进的目标
面临上下文膨胀问题

Text RAG

检索增强生成（RAG）领域的经典方法，操作于扁平的文本块，不利用图结构信息。

非结构化数据对比基线
展示图结构推理的价值
主流RAG实现代表

准确性提升

相较于Graph-CoT的准确率提升

在核心的准确性指标上，GLM框架相较于其直接的前身和基线系统Graph-CoT，取得了显著且令人瞩目的提升。根据在GRBench基准测试集上进行的广泛实验，GLM在答案准确性方面相较于Graph-CoT最高可提升38%。

准确率提升的关键因素

多智能体架构避免"中间迷失"问题
代码生成提供更精确的检索逻辑
"笔记本"机制确保推理过程连贯性
迭代推理避免错误累积和传播

相较于Text RAG的准确率提升

为了进一步凸显利用图结构进行推理的巨大价值，GLM的性能评估还将其与主流的、基于扁平文本的检索增强生成方法Text RAG进行了对比。实验结果清晰地表明，在处理需要复杂关系推理的任务时，Graph-CoT范式具有Text RAG无法比拟的优势。数据显示，GLM在答案准确性上相较于Text RAG最高可提升62%。

效率与成本优化

95.7%

Token消耗降低

• 从40,000+ tokens降至1,538-2,974

• 多智能体架构优化

• 代码替代冗长CoT

90.3%

推理延迟降低

• 从11-39秒降至2.8-5.9秒

• 流水线并行执行

• KV缓存复用优化

15.1x

吞吐量提升

• 从0.6-2.2提升至6.8-9.1 QPS

• 更低单次查询延迟

• 更高资源利用效率

GLM框架性能总结

指标	GLM	Graph-CoT (基线)	提升
答案准确性	最高提升38%	基线水平	+38%
相较于Text RAG的准确性	最高提升62%	-	+62%
Token消耗	1,538-2,974 tokens/query	40,000+ tokens/query	-95.7%
推理延迟	2.8-5.9 seconds	11-39 seconds	-90.3%
系统吞吐量	6.8-9.1 queries/sec	0.6-2.2 queries/sec	+15.1x

应用场景与未来研究方向

典型应用场景

学术知识图谱问答

帮助研究人员快速获取复杂问题的答案，如"找出在AI领域与Geoffrey Hinton合作过的、且论文在NeurIPS发表次数超过3次的学者"。

论文、作者、会议关系推理
引用网络分析
研究趋势发现

电商与推荐系统

构建更智能的推荐引擎，如"购买了商品A的用户中，有超过70%还购买了哪些商品"的复杂关联分析。

用户行为模式挖掘
商品关联推荐
实时个性化服务

专业领域知识推理

在医疗和法律等领域提供可靠的决策支持，如"对于同时患有糖尿病和高血压的患者，有哪些已获批的安全药物"。

医学知识图谱推理
法律案例关联分析
风险评估与决策支持

未来研究方向

框架的泛化能力与扩展性

探索如何进一步增强GLM框架的泛化能力和扩展性，设计更加通用的多智能体框架，使其能够轻松适应不同类型的结构化数据和推理任务。

支持关系数据库、JSON文档等多种数据类型
优化分布式处理能力，支持多GPU和服务器集群
开发更复杂的缓存一致性策略和分布式通信协议

动态图与实时推理

支持动态图（Dynamic Graphs）和实时推理，使GLM能够应用于更广泛的实时场景。

高效处理图的增量更新
确保推理结果的一致性
增量更新KV缓存而非使其失效
适应金融风控、社交网络分析等实时场景

更复杂的智能体交互模式

探索更复杂、更灵活的智能体交互模式，进一步提升GLM在超复杂推理任务上的表现。

引入"辩论"或"协商"机制
设计自主学习和进化的智能体
将强化学习引入智能体决策过程
构建更接近真正智能的系统

GLM: 开启大规模图推理的新纪元

GLM框架通过多智能体协作与系统级优化的完美结合，成功解决了图推理任务中的准确性、效率和可扩展性挑战。其突破性性能提升为复杂图推理从实验室走向大规模实际应用铺平了道路。

38%

准确率提升

95.7%

成本降低

90.3%

延迟降低

15.1x

吞吐量提升

GLM: 面向大规模图推理的多智能体框架与高效LLM服务

GLM: 面向大规模图推理的多智能体框架与高效LLM服务

多智能体架构

系统级优化

性能突破

准确率提升

核心问题与GLM框架概述

现有图推理系统的挑战

单智能体架构的局限性

推理准确性与效率的矛盾

GLM框架的核心思想

多智能体协作推理

与LLM服务架构的协同设计

GLM多智能体框架与组件

框架整体架构

GLM核心智能体组件

智能体协作流程

基于"笔记本"的状态管理机制

笔记本机制的优势

面向图推理的LLM服务优化实现细节

图感知的KV缓存管理机制

以顶点为中心的缓存模型

提升跨查询缓存复用率

缓存命中优势

技术实现特点

基于优先级的缓存驱逐策略

四级优先级划分

GLM四级优先级缓存驱逐策略

流水线并行执行策略

重叠图检索与LLM解码过程

流水线并行优势

性能表现与实验评估

实验设置与基准测试

GRBench基准测试集

对比基线系统

Graph-CoT

Text RAG

准确性提升

相较于Graph-CoT的准确率提升

准确率提升的关键因素

相较于Text RAG的准确率提升

效率与成本优化

GLM框架性能总结

应用场景与未来研究方向

典型应用场景

学术知识图谱问答

电商与推荐系统

专业领域知识推理

相关研究进展与对比

与现有Graph-CoT研究的对比

与多智能体LLM研究的关联

未来研究方向

框架的泛化能力与扩展性

动态图与实时推理

更复杂的智能体交互模式

GLM: 开启大规模图推理的新纪元

讨论回复