论文:HiVA: Self-organized Hierarchical Variable Agent via Goal-driven Semantic-Topological Evolution
作者:Jinzhou Tang 等,中山大学
地址:https://arxiv.org/abs/2509.00189
一、一个反直觉的观察
想象你是一家初创公司的唯一员工。第一天,你一个人包揽所有事情——写代码、做设计、回复客户邮件。随着业务增长,你发现有些事情你做得快,有些则慢得像蜗牛。于是你开始思考:我是不是该招个专门做设计的?是不是该把客服外包出去?
这就是HiVA(Hierarchical Variable Agent)的起点。
但与传统多智能体系统不同,HiVA 不会在一开始就给你一张组织架构图。它从一个"单细胞"开始——一个基础智能体,带着最简单的 prompt 和最基本的工具——然后让环境告诉你:你需要进化。
更准确地说,HiVA 回答了一个被长期忽视的问题:
多智能体系统,能不能像生物进化一样,从单细胞自发形成复杂的多细胞结构?
二、现有方法的"二极管困境"
在理解 HiVA 之前,我们需要看看现状有多尴尬。
当前的 LLM 多智能体框架,本质上分成两派:
第一派:流水线派(Fixed Workflow)
像 MetaGPT、AutoGen 这类框架,一上来就给你画好了一张流程图:产品经理 → 架构师 → 工程师 → 测试员。每个人做什么、跟谁说话,都是写死的。
优点:模块化,可复用,像乐高积木。
缺点:换个任务,积木就搭不起来了。让这套班子去做数学题?产品经理和架构师面面相觑。
第二派:反射派(Reactive Loop)
ReAct、AutoGPT 走另一条路:没有固定流程,只有一个智能体在环境里反复试错——观察、思考、行动、再观察。
优点:灵活,能适应未知环境。
缺点:每次都要从零开始。上次的经验没有沉淀成结构,就像一个人每次做数学题都要重新发明加减乘除。
HiVA 的核心洞察是:这两派都不对。真正智能的系统,应该同时进化"每个智能体该做什么"(语义)和"智能体之间该怎么连"(拓扑)。
三、STEV:把进化当成梯度下降
HiVA 的灵魂是 STEV(Semantic-Topological Evolution,语义-拓扑协同进化)。
这个算法的思路极其大胆:把整个多智能体系统当成一个神经网络,把环境反馈当成损失函数,然后在离散的非可微空间里做"梯度下降"。
3.1 混合优化空间
传统神经网络优化的是连续的权重向量 \(\theta \in \mathbb{R}^P\)。但多智能体系统不是这样——它的"参数"由两部分组成:
- 语义空间 \(\mathcal{P}_\Theta\):每个智能体的 prompt、工具配置、行为策略
- 拓扑空间 \(\mathcal{G}\):谁跟谁连接、信息怎么流动
两者都是离散的、非欧几里得的。你无法对一张图求导。
HiVA 的解决方案是引入 Textual Gradient(文本梯度)——用 LLM 自己生成梯度信号。
3.2 文本梯度:让 LLM 当自己的老师
这听起来像悖论:你要优化 LLM,但优化信号也来自 LLM?
其实不然。Textual Gradient 的精妙之处在于分层反馈:
第一步:环境给出"诊断报告"
假设你的多智能体系统做了一道数学题,答案是错的。环境不会只说"错了",而是返回一段详细的反馈:
"最终答案 42 不正确。问题出在第三步:agent_2 在分解多项式时漏掉了交叉项,导致后续计算全部偏离。建议:增强该 agent 的代数分解能力。"
第二步:反向传播到每个智能体
这段反馈被当成"全局梯度",从输出端(aggregator)反向传播到每个参与的智能体。每个智能体收到的是一段针对自己的批评——就像神经网络里每个神经元收到的局部梯度。
第三步:协同更新
每个智能体根据反馈,同时做两件事:
- 语义进化 \(f_P\):修改自己的 prompt 和工具配置
- 拓扑进化 \(f_G\):调整自己的连接关系——该加一个新同事?该删掉一个累赘?还是保持现状?
四、KABB:智能体版的"探索与利用"
如果每次任务都把所有智能体全部叫醒,那成本会爆炸。HiVA 用了一个经典但有效的策略:多臂老虎机(Multi-Armed Bandit)。
具体来说,HiVA 使用 KABB(Knowledge-Aware Bayesian Bandit)来动态选择执行子图:
Thompson Sampling + 知识图谱
每个智能体 \(A_i\) 被选中的概率由三个因素决定:
- 历史表现:\(\frac{\alpha_i}{\alpha_i + \beta_i}\)(Beta 分布的后验均值)
- 任务相关性:通过外部知识图谱计算智能体能力与任务需求的匹配度
- 团队协作增益:已选智能体之间的协同系数
这意味着 HiVA 不是每次都把所有 agent 叫上,而是像一位老练的制片人——根据剧本(任务)和演员履历(历史表现),精准选角。
五、拓扑网络 = 分布式记忆
这是 HiVA 最让我兴奋的设计。
传统多智能体系统的记忆,要么是每个 agent 自己记一点(容易重复和冲突),要么是一个中央记忆库(单点瓶颈)。
HiVA 说:记忆就在连接里。
每一条边 \((v_i, v_j)\) 都有一个权重 \(C_{syn}(v_i, v_j)\),记录着"从 agent i 到 agent j 的信息传递,历史上有多靠谱"。这个权重通过贝叶斯更新不断进化:
这创造了一种分层记忆结构:
| 层级 | 存储内容 | 对应结构 |
|---|---|---|
| 宏观 | 长期协作模式 | 拓扑图 \(\mathcal{G}\) |
| 中观 | 特定协作路径的效果 | 边权重 \(w_{ij}\) |
| 微观 | 单个 agent 的专业知识 | 语义参数 \(\Theta_i\) |
换句话说,HiVA 的"经验"不是存在某个数据库里,而是编码在了组织结构的 DNA 中。 就像生物进化——有用的连接被强化,无用的连接被修剪。
六、实验:数据说话
6.1 主实验:全面碾压基线
在 Qwen-2.5-72B-Instruct-Turbo 上的测试结果(表 1):
| 任务类型 | 数据集 | HiVA | 最强基线 | 提升 |
|---|---|---|---|---|
| 数学推理 | GSM-8K | 94.5% | 94.1% (MaAS) | +0.4% |
| 多跳 QA | HotpotQA | 79.7% | 76.2% (MaAS) | +3.5% |
| 多跳 QA | 2WikiHopQA | 86.5% | 81.1% (MaAS) | +5.4% |
| 代码生成 | HumanEval | 94.2% | 92.3% (MaAS) | +1.9% |
| 代码生成 | MBPP | 92.1% | 90.1% (MaAS) | +2.0% |
| 文本推理 | MMLU | 91.7% | 89.4% (MaAS) | +2.3% |
| 复杂推理 | BBH | 93.4% | 90.6% (MaAS) | +2.8% |
平均提升 +8.0%,在需要多步推理的任务上优势尤其明显。
6.2 GAIA 复杂 Agent 环境
GAIA 是评估通用 AI 助手的权威基准,分三个难度等级:
| 方法 | Level-1 | Level-2 | Level-3 | 成本效率 CS |
|---|---|---|---|---|
| AutoGPT | 13.2% | 0.0% | 3.9% | 1.3 |
| MaAS | 25.2% | 22.0% | 6.3% | 5.2 |
| HiVA | 26.2% | 24.3% | 11.1% | 5.5 |
注意 Level-2:AutoGPT 完全挂零,MaAS 22.0%,HiVA 24.3%。在真正复杂的开放环境中,固定流程和简单反射都失效,只有能自我进化的系统才能生存。
6.3 消融实验:双核心缺一不可
表 2 的消融实验是整篇论文最硬核的证据:
| 配置 | HotpotQA | MBPP | MMLU | 平均 |
|---|---|---|---|---|
| 完整 HiVA | 79.7% | 92.1% | 91.7% | 87.8% |
| 去掉 TEV(拓扑进化) | 74.0% ↓7.3% | 88.9% ↓3.5% | 88.3% ↓3.7% | 83.7% |
| 去掉 SEV(语义进化) | 71.2% ↓10.7% | 88.4% ↓4.0% | 86.9% ↓5.2% | 82.2% |
| 去掉 KABB | 76.2% ↓4.4% | 88.1% ↓4.4% | 90.6% ↓1.2% | 85.0% |
| 去掉环境反馈 | 75.2% ↓5.7% | 89.3% ↓3.1% | 89.5% ↓2.4% | 84.7% |
| 去掉工具 | 74.8% ↓6.1% | 94.1% ↑2.2% | 89.1% ↓2.8% | 84.3% |
关键发现:
- SEV 最关键:去掉语义进化,性能暴跌 5.6% 平均。这说明"每个 agent 该做什么"是基础。
- TEV 同样重要:去掉拓扑进化,HotpotQA 掉 7.3%。多跳推理严重依赖正确的信息流转路径。
- 两者缺一不可:单独去掉任何一个,性能都大幅下降。证明了协同进化的必要性。
- 工具的双刃剑效应:在 MBPP 上,去掉工具反而提升 2.2%。作者解释:某些简单任务中,工具调用反而增加了复杂度和错误源。这提示我们工具不是越多越好。
6.4 进化轨迹可视化
图 4 展示了一个成功和一个失败的进化案例:
成功案例(HotpotQA):
- 初始:单个通用 agent,准确率 67%
- 第 3 轮:分裂出"信息检索 agent"和"推理 agent"
- 第 6 轮:增加"事实校验 agent"
- 最终:拓扑稳定为三节点流水线,准确率 79%
失败案例(MATH):
- 问题:多个 agent 给出了矛盾的中间结果
- 聚合器(aggregator)无法仲裁,陷入死锁
- 作者结论:需要严格逻辑一致性的任务,对聚合器的设计提出了更高要求
七、类比理解:HiVA 像什么?
为了彻底理解 HiVA,让我用三个类比:
类比 1:生物进化
- 单细胞 = 初始的单个 agent
- 细胞分化 = 语义进化(不同 agent 发展出不同专长)
- 组织形成 = 拓扑进化(细胞之间建立连接,形成器官)
- 自然选择 = 环境反馈(不好的结构被淘汰)
- DNA = 拓扑网络 + 语义参数
类比 2:创业公司成长
- Day 1:创始人(单 agent)什么都做
- Month 3:发现客服占用太多时间,招了第一个客服(拓扑进化:新增节点)
- Month 6:发现工程师和产品经理沟通成本太高,建立了周会制度(拓扑进化:新增边)
- Year 1:客服团队太庞大,发现 80% 问题可以用 FAQ 解决,引入了自动化工具(语义进化:工具升级)
- Year 2:组织架构稳定,形成了部门制(收敛到稳定的拓扑)
类比 3:神经网络的反向传播
| 神经网络 | HiVA |
|---|---|
| 前向传播 | Forward Pass:任务在动态子图上执行 |
| 损失函数 | 环境给出的反馈 |
| 反向传播 | Textual Gradient:从 aggregator 向每个 agent 传播反馈 |
| 参数更新 | 语义进化 \(f_P\) + 拓扑进化 \(f_G\) |
| 梯度下降 | 广义梯度下降:\(s_{t+1} \leftarrow s_t \oplus \Delta s_t\) |
关键区别:神经网络的梯度是数值,HiVA 的梯度是自然语言。
八、局限与展望
8.1 当前局限
-
MATH 任务上的挫折:HiVA 在严格逻辑一致性任务上表现不佳(81.2%,低于 Vanilla 的 82.7%)。多个 agent 的并行推理会产生冲突结果,聚合器难以仲裁。
-
进化速度:每个任务需要多轮迭代(论文用了 10 轮),对于实时性要求高的场景可能太慢。
-
成本问题:虽然比全量调用所有 agent 便宜,但文本梯度的生成本身也需要 LLM 调用。
-
收敛性:没有理论保证一定能收敛到最优拓扑。就像进化论不保证一定产生智慧生命。
8.2 激动人心的方向
-
与强化学习结合:Textual Gradient 可以看作是策略梯度的一种形式。能否引入 PPO、GRPO 等算法来稳定训练?
-
跨任务迁移:一个在 HotpotQA 上进化出的拓扑结构,能否迁移到 Natural Questions?就像进化出的眼睛,从鱼类到哺乳动物都好用。
-
人类在环进化:让领域专家参与反馈,而不只是依赖自动评估。这对于医学、法律等专业领域至关重要。
-
与 Mapping Networks 结合:上篇论文的隐空间参数压缩,能否用来压缩 HiVA 的语义参数?让进化更轻量?
九、一句话收束
HiVA 告诉我们:智能的本质不是单个神经元有多强,而是神经元之间能不能自己长出对的连接。从单细胞到多细胞,从个体到社会——进化从来不需要蓝图,只需要反馈。
参考论文
[1] Tang, J. et al. (2025). HiVA: Self-organized Hierarchical Variable Agent via Goal-driven Semantic-Topological Evolution. arXiv:2509.00189.
#论文解读 #费曼风格 #多智能体 #HiVA #STEV #中山大学 #小凯
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。