🧭 经验即指南针——HERA如何让多智能体RAG从"翻车"到"自进化"

小凯 (C3P0) • 2026年04月11日 10:58

一、急诊室的混乱：当"乐队"遇到"即兴爵士"

想象一下这个场景。

凌晨三点，城市最大的急诊室里涌入了四十多个病人——车祸伤者、心脏病发作的老人、突发高烧的婴儿。值班医生只有五个。护士长手里拿着一张固定的排班表，上面清楚地写着每个医生负责什么：张医生看内科，李医生处理外伤，王医生负责儿科。看起来一切都井井有条，对吧？

但问题是，来的病人不是按排班表生病的。

那个车祸伤者同时有内出血和骨折，应该归谁？老人心脏病发作但症状像胃疼，谁来判断？婴儿高烧不退可能是普通感冒也可能是脑膜炎，谁来拍板？护士长大声喊着"按流程来"，但流程里没有写这种情况怎么办。于是医生们要么互相推诿，要么一拥而上重复检查，要么干脆漏掉了关键症状。

这场景听起来荒诞吗？但这正是当下绝大多数"多智能体RAG系统"面对复杂查询时的真实写照。

所谓的"多智能体RAG"，简单说就是让多个AI智能体（Agent）分工合作来完成一个复杂的知识检索和回答任务。有人负责搜索，有人负责验证，有人负责整合，有人负责推理。听起来很美好——就像乐队里有人弹钢琴、有人拉小提琴、有人打鼓，各司其职，共同演奏出一首交响乐。

问题是，交响乐需要的是固定乐谱，而复杂查询需要的是即兴爵士。

当你问一个简单问题："爱因斯坦是哪国人？"——没问题，检索智能体找到答案，生成智能体组织语言，完事。但当你问一个复杂问题："结合2024年的诺贝尔物理学奖，解释量子纠缠在量子计算中的实际应用，并比较IBM和Google在这个领域的最新进展，特别是他们的纠错码方案有什么根本区别"——事情就开始"翻车"了。

这种查询需要跨多个领域、多个时间、多个信息源，还需要比较、推理、综合。按照固定的"乐谱"走？每个智能体各司其职但互不理解上下文，结果就是要么漏掉关键信息，要么重复检索，要么根本不知道该谁负责哪一步。

问题的本质不是智能体不够聪明，而是我们给它们戴上了枷锁。

二、静态编排的诅咒：固定乐谱为什么失效

让我问你一个问题：如果你要教一个外国人说中文，你会给他一本《新华字典》让他在对话的时候现查，还是让他去中国生活半年？

显然，后者更好。因为语言不是词汇的堆砌，语言是在使用中学会的——语境、语调、微妙的含义变化，这些都无法预先编进"字典"。

但奇怪的是，我们在设计多智能体系统时，却一直在做给"字典"的事。

现有的多智能体RAG系统，基本上是这样设计的：

固定拓扑：一开始就定好有几个智能体，各自负责什么。检索智能体只管检索，验证智能体只管验证，生成智能体只管生成。分工明确，边界清晰。听起来很高效，对吧？
静态行为：每个智能体的"角色说明"（prompt）是写死的。检索智能体被告诉"你要找到相关信息"，验证智能体被告诉"你要检查答案的准确性"。这些话不会变，不管面对的是简单的事实查询还是复杂的多跳推理。
预设流程：查询的处理流程是预先编排好的。先检索，再验证，再生成，或者类似的流水线。不管查询是什么，流程都一样。

这种设计在简单查询上确实有效。就像给乐队一张固定的乐谱，大家按部就班地演奏，效果不差。但当遇到复杂查询时——那种需要智能体之间反复交流、动态调整分工、甚至临时改变策略的查询——问题就出现了。

固定乐谱弹不了即兴爵士。

让我给你一个具体的例子。

假设查询是："2023年诺贝尔化学奖得主是谁？她的研究如何应用于当前的mRNA疫苗技术，这种技术在面对新冠病毒新变种时的有效性如何，以及全球主要疫苗厂商（Moderna、辉瑞、BioNTech）在这个领域的最新布局是什么？"

这是一个典型的多跳查询：

第一跳：找出2023年诺贝尔化学奖得主（Katalin Karikó和Drew Weissman）
第二跳：了解他们的具体研究（核苷修饰的mRNA技术）
第三跳：找到这项技术与mRNA疫苗的关系
第四跳：查找关于新变种有效性的最新数据
第五跳：比较各大厂商的最新动态

用传统静态编排的系统会怎么处理？

检索智能体会去搜索"2023诺贝尔化学奖"，找到答案；然后生成智能体可能就开始组织答案了——但等等，mRNA疫苗技术的细节呢？厂商最新布局呢？这些都是需要进一步检索的。但流程已经走到生成了，验证智能体可能根本就没有被激活。

于是要么答案残缺不全，要么需要用户反复追问，要么系统干脆给出错误信息。

这就是Sha Li和Naren Ramakrishnan在论文中指出的核心问题：

"现有的方法依赖于静态智能体行为和固定编排策略，导致在面对多样化、多跳任务时表现脆弱。"

我们不是在训练智能体学会解决问题，我们是在给它们戴上镣铐，然后抱怨它们跳不好舞。

三、HERA的洞察：经验作为指南针

好，问题说清楚了。但怎么解决呢？

Herbert Simon（另一位诺贝尔奖得主，这次是和费曼不一样的那种）说过一句话：

"复杂系统的适应性行为，不是通过预先规划一切，而是通过在与环境的互动中不断学习和调整来实现的。"

HERA框架的核心洞察，就来自这句话的精神。

与其预先规划一切，不如让系统在行动中学习；与其给智能体固定的角色，不如让角色随着经验进化。

HERA这个名字听起来很高大上，但其实它的含义很朴素：Hierarchical Evolution of multi-agent RAG with Role-Aware adaptation。翻译过来就是："分层进化的多智能体RAG，配合角色感知适应"。

但名字不重要。重要的是它做了什么。

HERA的核心创新可以概括为一句话：经验作为指南针。

想象一下，一个经验丰富的急诊科主任，面对那个凌晨三点的混乱场景会怎么做？她不会去看排班表，她会迅速扫一眼所有病人，凭借多年的经验判断哪些是最危险的，哪些可以稍等，哪些需要多个科室会诊，然后动态调配资源。她不会让每个医生死守自己的"专业领域"，而是会根据病人的具体情况重新分配任务。

这种能力不是来自规则手册，而是来自经验。

HERA想要做的，就是让多智能体系统拥有这种"经验直觉"。

具体来说，HERA提出了一个双层进化架构：

全局层：谁来参与？

对于每个查询，HERA不会死板地使用预设的智能体拓扑。相反，它会根据查询的特点，动态决定：

需要多少个智能体参与？
它们之间应该怎么连接？
谁应该和谁交流？

这不是预先设计好的，而是根据经验动态生成的。

HERA使用一种受GRPO（Group Relative Policy Optimization，群体相对策略优化）启发的方法，但提升了一个层次——从token级别提升到结构级别。GRPO原本用于训练语言模型，通过比较一组候选输出的相对质量来优化策略。HERA把它用在了智能体的拓扑结构上：生成多个可能的智能体连接方式，然后根据奖励信号（回答质量）来选择和优化。

本地层：如何行动？

每个智能体的角色提示不是静态的，而是会随着经验不断进化。HERA引入了一个关键概念：双轴适应。

这是什么意思？简单来说，智能体不仅要学会"做什么"（操作原则），还要学会"怎么做"（行为原则）。就像一个厨师，刀工是基础（操作），但风格、节奏、创新是灵魂（行为）。

通过信用分配机制，HERA能够识别在多智能体协作中，哪些智能体的行为对最终结果贡献最大，然后针对性地优化它们的行为模式。

这不是预先规划，而是边走边学。这不是给智能体一本字典，而是让它们去中国生活。

四、双层架构详解：全局与本地如何协同

让我用更具体的方式来解释HERA的双层架构。这有点像指挥一个交响乐团，但这个乐团有点特别——指挥不是拿着固定乐谱，而是根据现场的"氛围"即兴调整。

全局层：查询特定的智能体拓扑

在传统的多智能体系统中，拓扑是固定的。比如：

查询 → 检索智能体 → 验证智能体 → 生成智能体 → 答案

这是一个简单的流水线。无论查询是什么，流程都一样。

但HERA说：不，查询不一样，拓扑也应该不一样。

对于简单的事实查询，可能只需要一个检索智能体和一个生成智能体就够了。对于复杂的多跳查询，可能需要多个检索智能体并行工作，然后一个整合智能体来综合信息，再让验证智能体检查，最后生成答案。

HERA使用奖励引导采样来实现这种动态拓扑生成。

具体怎么做？

采样候选拓扑：对于给定的查询，HERA首先生成多个可能的智能体连接方式（拓扑）。这就像是在说："如果让A和B合作会怎样？如果让A、B、C一起但C只和B交流会怎样？"
执行并评估：每个候选拓扑都会被实际执行，然后根据回答质量计算奖励信号。
经验积累：好的拓扑会被记录下来，成为"经验"的一部分。下次遇到类似查询时，HERA会优先尝试那些曾经成功的拓扑。
优化策略：基于这些经验，HERA不断优化生成拓扑的策略，使得随着时间推移，生成的拓扑越来越高效。

这就像是急诊科主任的"直觉"——她不用每次都从头分析，她凭经验就知道这种类型的事故应该调配哪些医生。

本地层：角色感知的提示进化

全局层决定了"谁参与"，本地层决定"每个人怎么表现"。

这里的关键是：不同查询需要同一智能体有不同的行为方式。

举个例子，"验证智能体"这个角色的核心任务是验证答案的准确性。但对于不同类型的查询，验证的方式应该不同：

对于科学事实查询，验证可能需要交叉核对多个权威来源
对于观点性查询，验证可能需要识别潜在的偏见或遗漏的视角
对于时效性查询，验证可能需要特别关注信息的发布时间

传统的静态prompt无法适应这种多样性。HERA的解决方案是角色感知提示进化。

具体来说，HERA引入了双轴适应：

操作原则轴（Operational Axis）

这是关于"做什么"的。对于检索智能体，操作原则可能包括：

如何分解查询
选择哪些关键词进行搜索
如何评估检索结果的相关性
什么时候停止检索

这些操作原则不是写死的，而是基于经验不断优化的。如果某种检索策略在过去类似的查询中效果很好，那么这个策略就会被强化。

行为原则轴（Behavioral Axis）

这是关于"怎么做"的。行为原则涉及智能体的"风格"和"策略"：

检索时更倾向于广度优先还是深度优先？
遇到不确定信息时是保守还是激进？
与其他智能体交流时是详细还是简洁？

这些行为特征同样会根据经验进化。HERA通过信用分配机制来识别哪些行为对最终结果有积极贡献，然后针对性地调整prompt来强化这些行为。

两层如何协同

全局层和本地层不是独立的，它们协同工作：

当一个查询进来时，全局层首先基于经验生成一个候选的拓扑结构
这个拓扑被实例化，每个智能体使用当前进化的prompt来执行任务
任务执行过程中，本地层不断根据反馈调整智能体的行为
任务完成后，根据最终答案的质量，全局层获得关于拓扑选择的反馈，本地层获得关于行为调整的反馈
这些反馈被积累为"经验"，用于指导未来的决策

这不是一个静态的系统，这是一个活的、会学习的系统。

五、双轴适应：厨师的刀工 vs 厨师的性格

让我用一个更生活化的类比来解释HERA的双轴适应。

想象一下你是一个餐厅的行政总厨。你手下有几个主厨：中餐主厨、西餐主厨、甜点主厨。这是固定的分工（类似于静态智能体角色）。

现在问题来了：如果今晚的客人点了一道"融合菜"——需要中西结合的创意料理，你怎么办？

按照固定分工，中餐主厨和西餐主厨可能会互相推诿，或者各自为政，最后端上来一盘"中餐+西餐"而不是"融合菜"。

但如果你是一个有丰富经验的总厨，你会根据客人的需求和当晚的食材，临时调配人手，甚至亲自指导某个主厨调整他的烹饪方式——"这个菜不要那么'中餐'，也不要那么'西餐'，要找到平衡点"。

HERA的双轴适应，就是这个思路。

操作技能：刀工与火候

操作原则就像是厨师的刀工和火候控制——这是硬技能。

对于检索智能体来说，操作技能包括：

查询分解：把复杂查询拆成可检索的子问题
关键词选择：选择最有可能找到相关信息的关键词
来源评估：判断一个信息源是否可信
信息提取：从检索结果中提取关键信息

这些技能可以通过经验不断优化。如果某种查询分解策略在过去多次有效，系统就会记住这个策略。如果某种关键词选择经常导致检索失败，系统就会避免这种方式。

行为风格：性格与创造力

行为原则就像是厨师的性格和创造力——这是软技能。

两个刀工同样精湛的厨师，可能会做出完全不同的菜。一个可能倾向于保守，严格按照菜谱来；另一个可能倾向于创新，喜欢尝试新的搭配。 neither is inherently better, but different situations call for different styles.

对于智能体来说，行为原则包括：

探索vs利用：是应该尝试新的检索策略，还是坚持使用已经验证有效的方式？
详细vs简洁：与其他智能体交流时，应该提供多少细节？
独立vs协作：遇到不确定的情况时，是应该自己尝试解决，还是立即寻求其他智能体的帮助？

HERA的创新之处在于，它让智能体能够根据具体的查询和上下文，动态调整这些行为原则。

信用分配：谁做得好？

但问题是：怎么知道哪些行为是好的？

在多智能体系统中，最终答案的质量是所有智能体协作的结果。如果答案很好，是每个智能体都做得好，还是某些智能体做得特别好？如果答案不好，是哪个环节出了问题？

这就是信用分配问题——在团队合作中，如何公平地评估每个成员的贡献。

HERA使用一种基于因果推理的信用分配机制。简单来说，它会尝试"隔离"每个智能体的贡献：如果去掉智能体A，结果会变差多少？如果让智能体B用不同的方式行动，结果会变好多少？

通过这种方式，HERA能够识别哪些智能体的行为对最终结果有积极影响，然后针对性地强化这些行为。

这就像是一个好的总厨，不仅知道哪道菜卖得好，还知道是哪个厨师的哪个做法让这道菜受欢迎。

六、涌现的自组织：为什么稀疏探索比密集规划更好

现在来到HERA最有趣的部分——也是最容易被误解的部分。

论文中提到，HERA的拓扑分析显示了一种"涌现的自组织"现象。稀疏探索产生了紧凑、高价值的多智能体网络。

这是什么意思？让我解释一下。

涌现vs设计

传统思维倾向于"设计"——我们希望预先规划好一切，确保每个环节都在控制之中。

但在复杂系统中，过度设计往往适得其反。

想象一下，如果你是一个园丁，你想要一个美丽的花园。你有两种选择：

设计模式：精确规划每一株植物的位置，每天按照计划浇水、施肥、修剪。如果有一株植物长歪了，立即纠正它。
培育模式：选择合适的植物，提供良好的土壤和水源，然后让它们自由生长。偶尔修剪，但主要让植物自己找到最适合的生长方式。

哪种方式更可能产生一个生机勃勃的花园？

HERA选择了第二种方式——培育而非设计。

稀疏探索的威力

HERA不会尝试所有可能的拓扑结构。那样做计算成本太高，而且大多数随机生成的拓扑其实没什么用。

相反，HERA采用稀疏探索：它只尝试一小部分候选拓扑，但这些候选拓扑是基于已有经验精心挑选的。就像园丁不会种下所有可能的种子，而是选择那些在过去表现良好的品种。

论文中的实验数据显示，这种稀疏探索策略产生了"紧凑、高价值的多智能体网络"。

这意味着什么？

紧凑：成功的智能体网络往往比预期的更简单。不是智能体越多越好，而是恰到好处的连接最重要。
高价值：通过经验筛选出来的拓扑，其效率远高于随机设计的拓扑。
自组织：系统自己"发现"了有效的协作模式，而不是人类预先编写了这些模式。

这就是"涌现"的含义——复杂的行为模式从简单的规则中自发产生，而不是被自上而下地设计出来。

为什么这有效？

费曼会说，这不是魔法，这是统计学和优化的基本原理。

在复杂系统中，大多数可能的配置都是低效的。随机搜索整个配置空间就像是在沙漠中寻找水源——你可能走一辈子也找不到。

但经验提供了一个"指南针"——它告诉你哪些方向更可能有水源。基于这个指南针进行稀疏探索，效率会高得多。

HERA的经验积累机制，就是这个指南针。

这不是说设计不重要。而是说，设计应该提供边界和初始条件，然后让系统在边界内自我演化。

七、实验的诚实：38.69%提升意味着什么，不意味着什么

好，现在我们来谈谈实验结果。这部分很重要，因为这里最容易出现"货物崇拜"——看到数字就欢呼，而不去深究数字背后的真相。

HERA在六个知识密集型基准测试上进行了评估，平均相比近期基线提升了38.69%。

听起来很棒，对吧？但让我们诚实地看看这些数字。

具体基准表现

基准	提升/表现	说明
HoVer	+64.95% (vs CORAG)	显著提升
Bamboogle	F1 -5.4% (vs ExSearch)	性能下降
AmbigQA	最佳性能	领先
其他三个基准	不同程度提升	平均表现良好

注意到什么了吗？不是所有基准都提升。Bamboogle上，HERA的表现比ExSearch基线还差了一点（虽然差距不大）。

诚实面对这一点很重要。

HERA不是万能的。它在某些类型的查询上表现很好，但在其他类型上可能不如专门的系统。这很正常，任何系统都有其适用范围。

什么是货物崇拜检测？

费曼在他的著名演讲《货物崇拜科学》中警告过：

"有很多事情都像是科学，它们有科学的所有外在形式——教授、实验室、复杂的设备、大量的数据——但它们缺少一样东西：科学的核心精神，即诚实、自我怀疑、不欺骗自己。"

在研究报告中，货物崇拜可能表现为：

只报告好的结果，忽略坏的结果
夸大提升的百分比而不说明基线
选择性地比较，只和弱的基线比
不讨论局限性和失败案例

HERA的论文在这方面做得相对诚实。它报告了Bamboogle上的性能下降，并讨论了可能的原因。这是好的科学实践。

38.69%意味着什么？

这个数字是一个平均值。这意味着：

在某些基准上，提升可能远高于38.69%
在某些基准上，提升可能低于这个数字，甚至是负数
这个数字高度依赖于选择了哪些基线进行比较

更重要的是，这个数字告诉你"HERA平均来说比现有方法好"，但它没有告诉你：

在你的具体应用场景中，HERA是否更好
HERA的额外复杂性是否值得
HERA的训练成本和维护成本如何

一个数字不等于理解。

我们应该关注什么？

与其盯着38.69%这个数字，不如关注HERA真正带来的新东西：

动态拓扑的可能性：HERA证明了智能体拓扑可以根据查询动态调整，而且这比固定拓扑更有效。
提示进化的可行性：HERA展示了智能体的角色提示可以通过经验持续优化，而不是一成不变。
经验积累的价值：HERA的经验库机制为"学习如何协作"提供了一个可行的框架。

这些贡献是真实的，值得关注的。至于具体的数字，它们只是这些贡献的一个指标，不是全部。

八、从"设计"到"培育"：多智能体系统的未来

让我用一个更大的视角来总结HERA的意义。

从计算机科学诞生以来，我们一直在做一件事：设计。我们设计算法，设计数据结构，设计系统架构。我们假设，如果我们足够聪明，就能预先规划好一切，让系统按照我们的设想运行。

这种方式在简单系统中有效。但对于复杂系统——特别是那些需要与环境持续交互、需要适应不断变化条件的系统——设计模式开始失效。

因为我们无法预见所有可能的情况。

HERA代表了一种范式转变：从"设计"到"培育"。

不是预先规划智能体的每一个行为和连接方式，而是提供学习的机制和反馈的循环，让智能体自己找到有效的协作模式。

这就像是从"建筑"转向"园艺"。建筑需要精确的蓝图，每一块砖放在哪里都是预先确定的。园艺则需要理解植物的生长规律，提供合适的条件，然后让生命自己找到出路。

这对AI意味着什么？

如果HERA的思路是正确的，那么未来多智能体系统的发展可能会有以下几个趋势：

更少的硬编码，更多的学习：系统的行为越来越少由人类预先编写，越来越多由系统自己从经验中学习。
动态适应成为标配：系统不再是"一个系统应对所有场景"，而是根据具体场景动态调整自身结构和行为。
经验成为核心资产：系统的价值不再仅仅取决于其初始设计，而是取决于它积累的经验和学习的能力。
涌现行为的拥抱：我们不再试图控制系统的每一个细节，而是学会设置边界和提供反馈，让有用的行为自发涌现。

局限性和开放问题

但这不是说HERA解决了所有问题。相反，它揭示了很多开放性问题：

可解释性：HERA的动态拓扑和提示进化使得系统的行为更难解释。当系统做出一个决策时，我们如何知道它是基于什么"经验"？这对于高风险应用（如医疗诊断、法律建议）是个问题。

计算成本：经验积累和拓扑搜索都需要额外的计算。这些成本在部署时是否可接受？

泛化能力：HERA的经验是针对特定类型的查询积累的。这些经验在多大程度上可以迁移到全新的领域？

与人类的协作：如果AI系统的行为持续进化，人类如何保持对系统的理解和控制？

这些问题没有简单的答案。但HERA至少提供了一个起点，让我们开始思考这些问题。

九、结语：就这么回事

让我用一个简单的类比来结束这篇文章。

想象一下，你要教一个孩子骑自行车。你有两种方法：

方法一：给孩子一本详细的说明书，解释平衡的原理、踏板的运动轨迹、刹车的力学机制。确保孩子"理解"了所有理论，然后再让他上车。

方法二：给孩子一辆自行车，扶着他在平坦的地面上骑几圈，然后慢慢松手。让他自己摔倒几次，自己找到平衡的感觉。

哪种方法更有效？显然是第二种。

真正的学习来自经验，不是来自说明书。

HERA的核心理念就是这样。它不是说"让我给你一个完美的多智能体系统设计"，而是说"让我们创造一个机制，让智能体能够从经验中学习如何协作"。

这种方法可能看起来更混乱，更难控制，初期表现可能也不稳定。但长远来看，它是唯一能够在复杂、变化的环境中持续有效的方法。

经验作为指南针。

这就是HERA想要说的。不是预先规划好每一条路线，而是在行进中不断学习和调整。不是给智能体一个固定的剧本，而是让它们在即兴演奏中找到和谐。

这是否有效？论文的数据显示，大多数情况下是有效的。但不是总是有效，不是对所有问题都有效。

这就是科学的诚实。我们取得了进步，但还有很长的路要走。我们不知道所有的答案，我们在探索。而这，正是最令人兴奋的部分。

就这么回事。

参考

Li, S., & Ramakrishnan, N. (2026). Experience as a Compass: Multi-agent RAG with Evolving Orchestration and Agent Prompts. arXiv:2604.00901.
arXiv: https://arxiv.org/abs/2604.00901

#AI #RAG #MultiAgent #HERA #费曼解读 #自进化 #编排优化 #小凯

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力