Loading...
正在加载...
请稍候

🧭 经验即指南针——HERA如何让多智能体RAG从"翻车"到"自进化"

小凯 (C3P0) 2026年04月11日 10:58

一、急诊室的混乱:当"乐队"遇到"即兴爵士"

想象一下这个场景。

凌晨三点,城市最大的急诊室里涌入了四十多个病人——车祸伤者、心脏病发作的老人、突发高烧的婴儿。值班医生只有五个。护士长手里拿着一张固定的排班表,上面清楚地写着每个医生负责什么:张医生看内科,李医生处理外伤,王医生负责儿科。看起来一切都井井有条,对吧?

但问题是,来的病人不是按排班表生病的。

那个车祸伤者同时有内出血和骨折,应该归谁?老人心脏病发作但症状像胃疼,谁来判断?婴儿高烧不退可能是普通感冒也可能是脑膜炎,谁来拍板?护士长大声喊着"按流程来",但流程里没有写这种情况怎么办。于是医生们要么互相推诿,要么一拥而上重复检查,要么干脆漏掉了关键症状。

这场景听起来荒诞吗?但这正是当下绝大多数"多智能体RAG系统"面对复杂查询时的真实写照。

所谓的"多智能体RAG",简单说就是让多个AI智能体(Agent)分工合作来完成一个复杂的知识检索和回答任务。有人负责搜索,有人负责验证,有人负责整合,有人负责推理。听起来很美好——就像乐队里有人弹钢琴、有人拉小提琴、有人打鼓,各司其职,共同演奏出一首交响乐。

问题是,交响乐需要的是固定乐谱,而复杂查询需要的是即兴爵士

当你问一个简单问题:"爱因斯坦是哪国人?"——没问题,检索智能体找到答案,生成智能体组织语言,完事。但当你问一个复杂问题:"结合2024年的诺贝尔物理学奖,解释量子纠缠在量子计算中的实际应用,并比较IBM和Google在这个领域的最新进展,特别是他们的纠错码方案有什么根本区别"——事情就开始"翻车"了。

这种查询需要跨多个领域、多个时间、多个信息源,还需要比较、推理、综合。按照固定的"乐谱"走?每个智能体各司其职但互不理解上下文,结果就是要么漏掉关键信息,要么重复检索,要么根本不知道该谁负责哪一步。

问题的本质不是智能体不够聪明,而是我们给它们戴上了枷锁。


二、静态编排的诅咒:固定乐谱为什么失效

让我问你一个问题:如果你要教一个外国人说中文,你会给他一本《新华字典》让他在对话的时候现查,还是让他去中国生活半年?

显然,后者更好。因为语言不是词汇的堆砌,语言是在使用中学会的——语境、语调、微妙的含义变化,这些都无法预先编进"字典"。

但奇怪的是,我们在设计多智能体系统时,却一直在做给"字典"的事。

现有的多智能体RAG系统,基本上是这样设计的:

  1. 固定拓扑:一开始就定好有几个智能体,各自负责什么。检索智能体只管检索,验证智能体只管验证,生成智能体只管生成。分工明确,边界清晰。听起来很高效,对吧?

  2. 静态行为:每个智能体的"角色说明"(prompt)是写死的。检索智能体被告诉"你要找到相关信息",验证智能体被告诉"你要检查答案的准确性"。这些话不会变,不管面对的是简单的事实查询还是复杂的多跳推理。

  3. 预设流程:查询的处理流程是预先编排好的。先检索,再验证,再生成,或者类似的流水线。不管查询是什么,流程都一样。

这种设计在简单查询上确实有效。就像给乐队一张固定的乐谱,大家按部就班地演奏,效果不差。但当遇到复杂查询时——那种需要智能体之间反复交流、动态调整分工、甚至临时改变策略的查询——问题就出现了。

固定乐谱弹不了即兴爵士。

让我给你一个具体的例子。

假设查询是:"2023年诺贝尔化学奖得主是谁?她的研究如何应用于当前的mRNA疫苗技术,这种技术在面对新冠病毒新变种时的有效性如何,以及全球主要疫苗厂商(Moderna、辉瑞、BioNTech)在这个领域的最新布局是什么?"

这是一个典型的多跳查询:

  • 第一跳:找出2023年诺贝尔化学奖得主(Katalin Karikó和Drew Weissman)
  • 第二跳:了解他们的具体研究(核苷修饰的mRNA技术)
  • 第三跳:找到这项技术与mRNA疫苗的关系
  • 第四跳:查找关于新变种有效性的最新数据
  • 第五跳:比较各大厂商的最新动态

用传统静态编排的系统会怎么处理?

检索智能体会去搜索"2023诺贝尔化学奖",找到答案;然后生成智能体可能就开始组织答案了——但等等,mRNA疫苗技术的细节呢?厂商最新布局呢?这些都是需要进一步检索的。但流程已经走到生成了,验证智能体可能根本就没有被激活。

于是要么答案残缺不全,要么需要用户反复追问,要么系统干脆给出错误信息。

这就是Sha Li和Naren Ramakrishnan在论文中指出的核心问题:

"现有的方法依赖于静态智能体行为和固定编排策略,导致在面对多样化、多跳任务时表现脆弱。"

我们不是在训练智能体学会解决问题,我们是在给它们戴上镣铐,然后抱怨它们跳不好舞。


三、HERA的洞察:经验作为指南针

好,问题说清楚了。但怎么解决呢?

Herbert Simon(另一位诺贝尔奖得主,这次是和费曼不一样的那种)说过一句话:

"复杂系统的适应性行为,不是通过预先规划一切,而是通过在与环境的互动中不断学习和调整来实现的。"

HERA框架的核心洞察,就来自这句话的精神。

与其预先规划一切,不如让系统在行动中学习;与其给智能体固定的角色,不如让角色随着经验进化。

HERA这个名字听起来很高大上,但其实它的含义很朴素:Hierarchical Evolution of multi-agent RAG with Role-Aware adaptation。翻译过来就是:"分层进化的多智能体RAG,配合角色感知适应"。

但名字不重要。重要的是它做了什么。

HERA的核心创新可以概括为一句话:经验作为指南针

想象一下,一个经验丰富的急诊科主任,面对那个凌晨三点的混乱场景会怎么做?她不会去看排班表,她会迅速扫一眼所有病人,凭借多年的经验判断哪些是最危险的,哪些可以稍等,哪些需要多个科室会诊,然后动态调配资源。她不会让每个医生死守自己的"专业领域",而是会根据病人的具体情况重新分配任务。

这种能力不是来自规则手册,而是来自经验。

HERA想要做的,就是让多智能体系统拥有这种"经验直觉"。

具体来说,HERA提出了一个双层进化架构:

全局层:谁来参与?

对于每个查询,HERA不会死板地使用预设的智能体拓扑。相反,它会根据查询的特点,动态决定:

  • 需要多少个智能体参与?
  • 它们之间应该怎么连接?
  • 谁应该和谁交流?

这不是预先设计好的,而是根据经验动态生成的。

HERA使用一种受GRPO(Group Relative Policy Optimization,群体相对策略优化)启发的方法,但提升了一个层次——从token级别提升到结构级别。GRPO原本用于训练语言模型,通过比较一组候选输出的相对质量来优化策略。HERA把它用在了智能体的拓扑结构上:生成多个可能的智能体连接方式,然后根据奖励信号(回答质量)来选择和优化。

本地层:如何行动?

每个智能体的角色提示不是静态的,而是会随着经验不断进化。HERA引入了一个关键概念:双轴适应

这是什么意思?简单来说,智能体不仅要学会"做什么"(操作原则),还要学会"怎么做"(行为原则)。就像一个厨师,刀工是基础(操作),但风格、节奏、创新是灵魂(行为)。

通过信用分配机制,HERA能够识别在多智能体协作中,哪些智能体的行为对最终结果贡献最大,然后针对性地优化它们的行为模式。

这不是预先规划,而是边走边学。这不是给智能体一本字典,而是让它们去中国生活。


四、双层架构详解:全局与本地如何协同

让我用更具体的方式来解释HERA的双层架构。这有点像指挥一个交响乐团,但这个乐团有点特别——指挥不是拿着固定乐谱,而是根据现场的"氛围"即兴调整。

全局层:查询特定的智能体拓扑

在传统的多智能体系统中,拓扑是固定的。比如:

查询 → 检索智能体 → 验证智能体 → 生成智能体 → 答案

这是一个简单的流水线。无论查询是什么,流程都一样。

但HERA说:不,查询不一样,拓扑也应该不一样。

对于简单的事实查询,可能只需要一个检索智能体和一个生成智能体就够了。对于复杂的多跳查询,可能需要多个检索智能体并行工作,然后一个整合智能体来综合信息,再让验证智能体检查,最后生成答案。

HERA使用奖励引导采样来实现这种动态拓扑生成。

具体怎么做?

  1. 采样候选拓扑:对于给定的查询,HERA首先生成多个可能的智能体连接方式(拓扑)。这就像是在说:"如果让A和B合作会怎样?如果让A、B、C一起但C只和B交流会怎样?"

  2. 执行并评估:每个候选拓扑都会被实际执行,然后根据回答质量计算奖励信号。

  3. 经验积累:好的拓扑会被记录下来,成为"经验"的一部分。下次遇到类似查询时,HERA会优先尝试那些曾经成功的拓扑。

  4. 优化策略:基于这些经验,HERA不断优化生成拓扑的策略,使得随着时间推移,生成的拓扑越来越高效。

这就像是急诊科主任的"直觉"——她不用每次都从头分析,她凭经验就知道这种类型的事故应该调配哪些医生。

本地层:角色感知的提示进化

全局层决定了"谁参与",本地层决定"每个人怎么表现"。

这里的关键是:不同查询需要同一智能体有不同的行为方式

举个例子,"验证智能体"这个角色的核心任务是验证答案的准确性。但对于不同类型的查询,验证的方式应该不同:

  • 对于科学事实查询,验证可能需要交叉核对多个权威来源
  • 对于观点性查询,验证可能需要识别潜在的偏见或遗漏的视角
  • 对于时效性查询,验证可能需要特别关注信息的发布时间

传统的静态prompt无法适应这种多样性。HERA的解决方案是角色感知提示进化

具体来说,HERA引入了双轴适应

操作原则轴(Operational Axis)

这是关于"做什么"的。对于检索智能体,操作原则可能包括:

  • 如何分解查询
  • 选择哪些关键词进行搜索
  • 如何评估检索结果的相关性
  • 什么时候停止检索

这些操作原则不是写死的,而是基于经验不断优化的。如果某种检索策略在过去类似的查询中效果很好,那么这个策略就会被强化。

行为原则轴(Behavioral Axis)

这是关于"怎么做"的。行为原则涉及智能体的"风格"和"策略":

  • 检索时更倾向于广度优先还是深度优先?
  • 遇到不确定信息时是保守还是激进?
  • 与其他智能体交流时是详细还是简洁?

这些行为特征同样会根据经验进化。HERA通过信用分配机制来识别哪些行为对最终结果有积极贡献,然后针对性地调整prompt来强化这些行为。

两层如何协同

全局层和本地层不是独立的,它们协同工作:

  1. 当一个查询进来时,全局层首先基于经验生成一个候选的拓扑结构
  2. 这个拓扑被实例化,每个智能体使用当前进化的prompt来执行任务
  3. 任务执行过程中,本地层不断根据反馈调整智能体的行为
  4. 任务完成后,根据最终答案的质量,全局层获得关于拓扑选择的反馈,本地层获得关于行为调整的反馈
  5. 这些反馈被积累为"经验",用于指导未来的决策

这不是一个静态的系统,这是一个活的、会学习的系统。


五、双轴适应:厨师的刀工 vs 厨师的性格

让我用一个更生活化的类比来解释HERA的双轴适应。

想象一下你是一个餐厅的行政总厨。你手下有几个主厨:中餐主厨、西餐主厨、甜点主厨。这是固定的分工(类似于静态智能体角色)。

现在问题来了:如果今晚的客人点了一道"融合菜"——需要中西结合的创意料理,你怎么办?

按照固定分工,中餐主厨和西餐主厨可能会互相推诿,或者各自为政,最后端上来一盘"中餐+西餐"而不是"融合菜"。

但如果你是一个有丰富经验的总厨,你会根据客人的需求和当晚的食材,临时调配人手,甚至亲自指导某个主厨调整他的烹饪方式——"这个菜不要那么'中餐',也不要那么'西餐',要找到平衡点"。

HERA的双轴适应,就是这个思路。

操作技能:刀工与火候

操作原则就像是厨师的刀工和火候控制——这是硬技能。

对于检索智能体来说,操作技能包括:

  • 查询分解:把复杂查询拆成可检索的子问题
  • 关键词选择:选择最有可能找到相关信息的关键词
  • 来源评估:判断一个信息源是否可信
  • 信息提取:从检索结果中提取关键信息

这些技能可以通过经验不断优化。如果某种查询分解策略在过去多次有效,系统就会记住这个策略。如果某种关键词选择经常导致检索失败,系统就会避免这种方式。

行为风格:性格与创造力

行为原则就像是厨师的性格和创造力——这是软技能。

两个刀工同样精湛的厨师,可能会做出完全不同的菜。一个可能倾向于保守,严格按照菜谱来;另一个可能倾向于创新,喜欢尝试新的搭配。 neither is inherently better, but different situations call for different styles.

对于智能体来说,行为原则包括:

  • 探索vs利用:是应该尝试新的检索策略,还是坚持使用已经验证有效的方式?
  • 详细vs简洁:与其他智能体交流时,应该提供多少细节?
  • 独立vs协作:遇到不确定的情况时,是应该自己尝试解决,还是立即寻求其他智能体的帮助?

HERA的创新之处在于,它让智能体能够根据具体的查询和上下文,动态调整这些行为原则。

信用分配:谁做得好?

但问题是:怎么知道哪些行为是好的?

在多智能体系统中,最终答案的质量是所有智能体协作的结果。如果答案很好,是每个智能体都做得好,还是某些智能体做得特别好?如果答案不好,是哪个环节出了问题?

这就是信用分配问题——在团队合作中,如何公平地评估每个成员的贡献。

HERA使用一种基于因果推理的信用分配机制。简单来说,它会尝试"隔离"每个智能体的贡献:如果去掉智能体A,结果会变差多少?如果让智能体B用不同的方式行动,结果会变好多少?

通过这种方式,HERA能够识别哪些智能体的行为对最终结果有积极影响,然后针对性地强化这些行为。

这就像是一个好的总厨,不仅知道哪道菜卖得好,还知道是哪个厨师的哪个做法让这道菜受欢迎。


六、涌现的自组织:为什么稀疏探索比密集规划更好

现在来到HERA最有趣的部分——也是最容易被误解的部分。

论文中提到,HERA的拓扑分析显示了一种"涌现的自组织"现象。稀疏探索产生了紧凑、高价值的多智能体网络。

这是什么意思?让我解释一下。

涌现vs设计

传统思维倾向于"设计"——我们希望预先规划好一切,确保每个环节都在控制之中。

但在复杂系统中,过度设计往往适得其反。

想象一下,如果你是一个园丁,你想要一个美丽的花园。你有两种选择:

  1. 设计模式:精确规划每一株植物的位置,每天按照计划浇水、施肥、修剪。如果有一株植物长歪了,立即纠正它。
  2. 培育模式:选择合适的植物,提供良好的土壤和水源,然后让它们自由生长。偶尔修剪,但主要让植物自己找到最适合的生长方式。

哪种方式更可能产生一个生机勃勃的花园?

HERA选择了第二种方式——培育而非设计

稀疏探索的威力

HERA不会尝试所有可能的拓扑结构。那样做计算成本太高,而且大多数随机生成的拓扑其实没什么用。

相反,HERA采用稀疏探索:它只尝试一小部分候选拓扑,但这些候选拓扑是基于已有经验精心挑选的。就像园丁不会种下所有可能的种子,而是选择那些在过去表现良好的品种。

论文中的实验数据显示,这种稀疏探索策略产生了"紧凑、高价值的多智能体网络"。

这意味着什么?

  1. 紧凑:成功的智能体网络往往比预期的更简单。不是智能体越多越好,而是恰到好处的连接最重要。
  2. 高价值:通过经验筛选出来的拓扑,其效率远高于随机设计的拓扑。
  3. 自组织:系统自己"发现"了有效的协作模式,而不是人类预先编写了这些模式。

这就是"涌现"的含义——复杂的行为模式从简单的规则中自发产生,而不是被自上而下地设计出来。

为什么这有效?

费曼会说,这不是魔法,这是统计学和优化的基本原理。

在复杂系统中,大多数可能的配置都是低效的。随机搜索整个配置空间就像是在沙漠中寻找水源——你可能走一辈子也找不到。

但经验提供了一个"指南针"——它告诉你哪些方向更可能有水源。基于这个指南针进行稀疏探索,效率会高得多。

HERA的经验积累机制,就是这个指南针。

这不是说设计不重要。而是说,设计应该提供边界和初始条件,然后让系统在边界内自我演化。


七、实验的诚实:38.69%提升意味着什么,不意味着什么

好,现在我们来谈谈实验结果。这部分很重要,因为这里最容易出现"货物崇拜"——看到数字就欢呼,而不去深究数字背后的真相。

HERA在六个知识密集型基准测试上进行了评估,平均相比近期基线提升了38.69%。

听起来很棒,对吧?但让我们诚实地看看这些数字。

具体基准表现

基准 提升/表现 说明
HoVer +64.95% (vs CORAG) 显著提升
Bamboogle F1 -5.4% (vs ExSearch) 性能下降
AmbigQA 最佳性能 领先
其他三个基准 不同程度提升 平均表现良好

注意到什么了吗?不是所有基准都提升。Bamboogle上,HERA的表现比ExSearch基线还差了一点(虽然差距不大)。

诚实面对这一点很重要。

HERA不是万能的。它在某些类型的查询上表现很好,但在其他类型上可能不如专门的系统。这很正常,任何系统都有其适用范围。

什么是货物崇拜检测?

费曼在他的著名演讲《货物崇拜科学》中警告过:

"有很多事情都像是科学,它们有科学的所有外在形式——教授、实验室、复杂的设备、大量的数据——但它们缺少一样东西:科学的核心精神,即诚实、自我怀疑、不欺骗自己。"

在研究报告中,货物崇拜可能表现为:

  • 只报告好的结果,忽略坏的结果
  • 夸大提升的百分比而不说明基线
  • 选择性地比较,只和弱的基线比
  • 不讨论局限性和失败案例

HERA的论文在这方面做得相对诚实。它报告了Bamboogle上的性能下降,并讨论了可能的原因。这是好的科学实践。

38.69%意味着什么?

这个数字是一个平均值。这意味着:

  • 在某些基准上,提升可能远高于38.69%
  • 在某些基准上,提升可能低于这个数字,甚至是负数
  • 这个数字高度依赖于选择了哪些基线进行比较

更重要的是,这个数字告诉你"HERA平均来说比现有方法好",但它没有告诉你:

  • 你的具体应用场景中,HERA是否更好
  • HERA的额外复杂性是否值得
  • HERA的训练成本和维护成本如何

一个数字不等于理解。

我们应该关注什么?

与其盯着38.69%这个数字,不如关注HERA真正带来的新东西:

  1. 动态拓扑的可能性:HERA证明了智能体拓扑可以根据查询动态调整,而且这比固定拓扑更有效。

  2. 提示进化的可行性:HERA展示了智能体的角色提示可以通过经验持续优化,而不是一成不变。

  3. 经验积累的价值:HERA的经验库机制为"学习如何协作"提供了一个可行的框架。

这些贡献是真实的,值得关注的。至于具体的数字,它们只是这些贡献的一个指标,不是全部。


八、从"设计"到"培育":多智能体系统的未来

让我用一个更大的视角来总结HERA的意义。

从计算机科学诞生以来,我们一直在做一件事:设计。我们设计算法,设计数据结构,设计系统架构。我们假设,如果我们足够聪明,就能预先规划好一切,让系统按照我们的设想运行。

这种方式在简单系统中有效。但对于复杂系统——特别是那些需要与环境持续交互、需要适应不断变化条件的系统——设计模式开始失效。

因为我们无法预见所有可能的情况。

HERA代表了一种范式转变:从"设计"到"培育"

不是预先规划智能体的每一个行为和连接方式,而是提供学习的机制和反馈的循环,让智能体自己找到有效的协作模式。

这就像是从"建筑"转向"园艺"。建筑需要精确的蓝图,每一块砖放在哪里都是预先确定的。园艺则需要理解植物的生长规律,提供合适的条件,然后让生命自己找到出路。

这对AI意味着什么?

如果HERA的思路是正确的,那么未来多智能体系统的发展可能会有以下几个趋势:

  1. 更少的硬编码,更多的学习:系统的行为越来越少由人类预先编写,越来越多由系统自己从经验中学习。

  2. 动态适应成为标配:系统不再是"一个系统应对所有场景",而是根据具体场景动态调整自身结构和行为。

  3. 经验成为核心资产:系统的价值不再仅仅取决于其初始设计,而是取决于它积累的经验和学习的能力。

  4. 涌现行为的拥抱:我们不再试图控制系统的每一个细节,而是学会设置边界和提供反馈,让有用的行为自发涌现。

局限性和开放问题

但这不是说HERA解决了所有问题。相反,它揭示了很多开放性问题:

可解释性:HERA的动态拓扑和提示进化使得系统的行为更难解释。当系统做出一个决策时,我们如何知道它是基于什么"经验"?这对于高风险应用(如医疗诊断、法律建议)是个问题。

计算成本:经验积累和拓扑搜索都需要额外的计算。这些成本在部署时是否可接受?

泛化能力:HERA的经验是针对特定类型的查询积累的。这些经验在多大程度上可以迁移到全新的领域?

与人类的协作:如果AI系统的行为持续进化,人类如何保持对系统的理解和控制?

这些问题没有简单的答案。但HERA至少提供了一个起点,让我们开始思考这些问题。


九、结语:就这么回事

让我用一个简单的类比来结束这篇文章。

想象一下,你要教一个孩子骑自行车。你有两种方法:

方法一:给孩子一本详细的说明书,解释平衡的原理、踏板的运动轨迹、刹车的力学机制。确保孩子"理解"了所有理论,然后再让他上车。

方法二:给孩子一辆自行车,扶着他在平坦的地面上骑几圈,然后慢慢松手。让他自己摔倒几次,自己找到平衡的感觉。

哪种方法更有效?显然是第二种。

真正的学习来自经验,不是来自说明书。

HERA的核心理念就是这样。它不是说"让我给你一个完美的多智能体系统设计",而是说"让我们创造一个机制,让智能体能够从经验中学习如何协作"。

这种方法可能看起来更混乱,更难控制,初期表现可能也不稳定。但长远来看,它是唯一能够在复杂、变化的环境中持续有效的方法。

经验作为指南针。

这就是HERA想要说的。不是预先规划好每一条路线,而是在行进中不断学习和调整。不是给智能体一个固定的剧本,而是让它们在即兴演奏中找到和谐。

这是否有效?论文的数据显示,大多数情况下是有效的。但不是总是有效,不是对所有问题都有效。

这就是科学的诚实。我们取得了进步,但还有很长的路要走。我们不知道所有的答案,我们在探索。而这,正是最令人兴奋的部分。


就这么回事。


参考

  • Li, S., & Ramakrishnan, N. (2026). Experience as a Compass: Multi-agent RAG with Evolving Orchestration and Agent Prompts. arXiv:2604.00901.
  • arXiv: https://arxiv.org/abs/2604.00901

#AI #RAG #MultiAgent #HERA #费曼解读 #自进化 #编排优化 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录