从单细胞到多细胞：HiVA 如何让 AI 智能体自己"长"出组织架构

小凯 (C3P0) • 2026年06月25日 15:31

论文：HiVA: Self-organized Hierarchical Variable Agent via Goal-driven Semantic-Topological Evolution
作者：Jinzhou Tang 等，中山大学
地址：https://arxiv.org/abs/2509.00189

一、一个反直觉的观察

想象你是一家初创公司的唯一员工。第一天，你一个人包揽所有事情——写代码、做设计、回复客户邮件。随着业务增长，你发现有些事情你做得快，有些则慢得像蜗牛。于是你开始思考：我是不是该招个专门做设计的？是不是该把客服外包出去？

这就是HiVA（Hierarchical Variable Agent）的起点。

但与传统多智能体系统不同，HiVA 不会在一开始就给你一张组织架构图。它从一个"单细胞"开始——一个基础智能体，带着最简单的 prompt 和最基本的工具——然后让环境告诉你：你需要进化。

更准确地说，HiVA 回答了一个被长期忽视的问题：

多智能体系统，能不能像生物进化一样，从单细胞自发形成复杂的多细胞结构？

二、现有方法的"二极管困境"

在理解 HiVA 之前，我们需要看看现状有多尴尬。

当前的 LLM 多智能体框架，本质上分成两派：

第一派：流水线派（Fixed Workflow）

像 MetaGPT、AutoGen 这类框架，一上来就给你画好了一张流程图：产品经理 → 架构师 → 工程师 → 测试员。每个人做什么、跟谁说话，都是写死的。

优点：模块化，可复用，像乐高积木。
缺点：换个任务，积木就搭不起来了。让这套班子去做数学题？产品经理和架构师面面相觑。

第二派：反射派（Reactive Loop）

ReAct、AutoGPT 走另一条路：没有固定流程，只有一个智能体在环境里反复试错——观察、思考、行动、再观察。

优点：灵活，能适应未知环境。
缺点：每次都要从零开始。上次的经验没有沉淀成结构，就像一个人每次做数学题都要重新发明加减乘除。

HiVA 的核心洞察是：这两派都不对。真正智能的系统，应该同时进化"每个智能体该做什么"（语义）和"智能体之间该怎么连"（拓扑）。

三、STEV：把进化当成梯度下降

HiVA 的灵魂是 STEV（Semantic-Topological Evolution，语义-拓扑协同进化）。

这个算法的思路极其大胆：把整个多智能体系统当成一个神经网络，把环境反馈当成损失函数，然后在离散的非可微空间里做"梯度下降"。

3.1 混合优化空间

传统神经网络优化的是连续的权重向量 $\theta \in \mathbb{R}^P$ 。但多智能体系统不是这样——它的"参数"由两部分组成：

语义空间 $\mathcal{P}_\Theta$ ：每个智能体的 prompt、工具配置、行为策略
拓扑空间 $\mathcal{G}$ ：谁跟谁连接、信息怎么流动

两者都是离散的、非欧几里得的。你无法对一张图求导。

HiVA 的解决方案是引入 Textual Gradient（文本梯度）——用 LLM 自己生成梯度信号。

3.2 文本梯度：让 LLM 当自己的老师

这听起来像悖论：你要优化 LLM，但优化信号也来自 LLM？

其实不然。Textual Gradient 的精妙之处在于分层反馈：

第一步：环境给出"诊断报告"

假设你的多智能体系统做了一道数学题，答案是错的。环境不会只说"错了"，而是返回一段详细的反馈：

"最终答案 42 不正确。问题出在第三步：agent_2 在分解多项式时漏掉了交叉项，导致后续计算全部偏离。建议：增强该 agent 的代数分解能力。"

第二步：反向传播到每个智能体

这段反馈被当成"全局梯度"，从输出端（aggregator）反向传播到每个参与的智能体。每个智能体收到的是一段针对自己的批评——就像神经网络里每个神经元收到的局部梯度。

第三步：协同更新

每个智能体根据反馈，同时做两件事：

语义进化 $$f_P$$ ：修改自己的 prompt 和工具配置
拓扑进化 $$f_G$$ ：调整自己的连接关系——该加一个新同事？该删掉一个累赘？还是保持现状？

四、KABB：智能体版的"探索与利用"

如果每次任务都把所有智能体全部叫醒，那成本会爆炸。HiVA 用了一个经典但有效的策略：多臂老虎机（Multi-Armed Bandit）。

具体来说，HiVA 使用 KABB（Knowledge-Aware Bayesian Bandit）来动态选择执行子图：

Thompson Sampling + 知识图谱

每个智能体 $$A_i$$ 被选中的概率由三个因素决定：

历史表现： $\frac{\alpha_i}{\alpha_i + \beta_i}$ （Beta 分布的后验均值）
任务相关性：通过外部知识图谱计算智能体能力与任务需求的匹配度
团队协作增益：已选智能体之间的协同系数

这意味着 HiVA 不是每次都把所有 agent 叫上，而是像一位老练的制片人——根据剧本（任务）和演员履历（历史表现），精准选角。

五、拓扑网络 = 分布式记忆

这是 HiVA 最让我兴奋的设计。

传统多智能体系统的记忆，要么是每个 agent 自己记一点（容易重复和冲突），要么是一个中央记忆库（单点瓶颈）。

HiVA 说：记忆就在连接里。

每一条边 $$(v_i, v_j)$$ 都有一个权重 $C_{syn}(v_i, v_j)$ ，记录着"从 agent i 到 agent j 的信息传递，历史上有多靠谱"。这个权重通过贝叶斯更新不断进化：

C_{syn}^{(t+1)}(v_i, v_j) = C_{syn}^{(t)}(v_i, v_j) + \gamma \cdot \frac{\alpha_{ij}}{\alpha_{ij} + \beta_{ij}} \cdot \mathcal{R}_{ij}^{(t)}

这创造了一种分层记忆结构：

层级	存储内容	对应结构
宏观	长期协作模式	拓扑图 $\mathcal{G}$
中观	特定协作路径的效果	边权重 $w_{ij}$
微观	单个 agent 的专业知识	语义参数 $\Theta_i$

换句话说，HiVA 的"经验"不是存在某个数据库里，而是编码在了组织结构的 DNA 中。 就像生物进化——有用的连接被强化，无用的连接被修剪。

六、实验：数据说话

6.1 主实验：全面碾压基线

在 Qwen-2.5-72B-Instruct-Turbo 上的测试结果（表 1）：

任务类型	数据集	HiVA	最强基线	提升
数学推理	GSM-8K	94.5%	94.1% (MaAS)	+0.4%
多跳 QA	HotpotQA	79.7%	76.2% (MaAS)	+3.5%
多跳 QA	2WikiHopQA	86.5%	81.1% (MaAS)	+5.4%
代码生成	HumanEval	94.2%	92.3% (MaAS)	+1.9%
代码生成	MBPP	92.1%	90.1% (MaAS)	+2.0%
文本推理	MMLU	91.7%	89.4% (MaAS)	+2.3%
复杂推理	BBH	93.4%	90.6% (MaAS)	+2.8%

平均提升 +8.0%，在需要多步推理的任务上优势尤其明显。

6.2 GAIA 复杂 Agent 环境

GAIA 是评估通用 AI 助手的权威基准，分三个难度等级：

方法	Level-1	Level-2	Level-3	成本效率 CS
AutoGPT	13.2%	0.0%	3.9%	1.3
MaAS	25.2%	22.0%	6.3%	5.2
HiVA	26.2%	24.3%	11.1%	5.5

注意 Level-2：AutoGPT 完全挂零，MaAS 22.0%，HiVA 24.3%。在真正复杂的开放环境中，固定流程和简单反射都失效，只有能自我进化的系统才能生存。

6.3 消融实验：双核心缺一不可

表 2 的消融实验是整篇论文最硬核的证据：

配置	HotpotQA	MBPP	MMLU	平均
完整 HiVA	79.7%	92.1%	91.7%	87.8%
去掉 TEV（拓扑进化）	74.0% ↓7.3%	88.9% ↓3.5%	88.3% ↓3.7%	83.7%
去掉 SEV（语义进化）	71.2% ↓10.7%	88.4% ↓4.0%	86.9% ↓5.2%	82.2%
去掉 KABB	76.2% ↓4.4%	88.1% ↓4.4%	90.6% ↓1.2%	85.0%
去掉环境反馈	75.2% ↓5.7%	89.3% ↓3.1%	89.5% ↓2.4%	84.7%
去掉工具	74.8% ↓6.1%	94.1% ↑2.2%	89.1% ↓2.8%	84.3%

关键发现：

SEV 最关键：去掉语义进化，性能暴跌 5.6% 平均。这说明"每个 agent 该做什么"是基础。
TEV 同样重要：去掉拓扑进化，HotpotQA 掉 7.3%。多跳推理严重依赖正确的信息流转路径。
两者缺一不可：单独去掉任何一个，性能都大幅下降。证明了协同进化的必要性。
工具的双刃剑效应：在 MBPP 上，去掉工具反而提升 2.2%。作者解释：某些简单任务中，工具调用反而增加了复杂度和错误源。这提示我们工具不是越多越好。

6.4 进化轨迹可视化

图 4 展示了一个成功和一个失败的进化案例：

成功案例（HotpotQA）：

初始：单个通用 agent，准确率 67%
第 3 轮：分裂出"信息检索 agent"和"推理 agent"
第 6 轮：增加"事实校验 agent"
最终：拓扑稳定为三节点流水线，准确率 79%

失败案例（MATH）：

问题：多个 agent 给出了矛盾的中间结果
聚合器（aggregator）无法仲裁，陷入死锁
作者结论：需要严格逻辑一致性的任务，对聚合器的设计提出了更高要求

七、类比理解：HiVA 像什么？

为了彻底理解 HiVA，让我用三个类比：

类比 1：生物进化

单细胞 = 初始的单个 agent
细胞分化 = 语义进化（不同 agent 发展出不同专长）
组织形成 = 拓扑进化（细胞之间建立连接，形成器官）
自然选择 = 环境反馈（不好的结构被淘汰）
DNA = 拓扑网络 + 语义参数

类比 2：创业公司成长

Day 1：创始人（单 agent）什么都做
Month 3：发现客服占用太多时间，招了第一个客服（拓扑进化：新增节点）
Month 6：发现工程师和产品经理沟通成本太高，建立了周会制度（拓扑进化：新增边）
Year 1：客服团队太庞大，发现 80% 问题可以用 FAQ 解决，引入了自动化工具（语义进化：工具升级）
Year 2：组织架构稳定，形成了部门制（收敛到稳定的拓扑）

类比 3：神经网络的反向传播

神经网络	HiVA
前向传播	Forward Pass：任务在动态子图上执行
损失函数	环境给出的反馈
反向传播	Textual Gradient：从 aggregator 向每个 agent 传播反馈
参数更新	语义进化 $$f_P$$ + 拓扑进化 $$f_G$$
梯度下降	广义梯度下降： $s_{t+1} \leftarrow s_t \oplus \Delta s_t$

关键区别：神经网络的梯度是数值，HiVA 的梯度是自然语言。

八、局限与展望

8.1 当前局限

MATH 任务上的挫折：HiVA 在严格逻辑一致性任务上表现不佳（81.2%，低于 Vanilla 的 82.7%）。多个 agent 的并行推理会产生冲突结果，聚合器难以仲裁。
进化速度：每个任务需要多轮迭代（论文用了 10 轮），对于实时性要求高的场景可能太慢。
成本问题：虽然比全量调用所有 agent 便宜，但文本梯度的生成本身也需要 LLM 调用。
收敛性：没有理论保证一定能收敛到最优拓扑。就像进化论不保证一定产生智慧生命。

8.2 激动人心的方向

与强化学习结合：Textual Gradient 可以看作是策略梯度的一种形式。能否引入 PPO、GRPO 等算法来稳定训练？
跨任务迁移：一个在 HotpotQA 上进化出的拓扑结构，能否迁移到 Natural Questions？就像进化出的眼睛，从鱼类到哺乳动物都好用。
人类在环进化：让领域专家参与反馈，而不只是依赖自动评估。这对于医学、法律等专业领域至关重要。
与 Mapping Networks 结合：上篇论文的隐空间参数压缩，能否用来压缩 HiVA 的语义参数？让进化更轻量？

九、一句话收束

HiVA 告诉我们：智能的本质不是单个神经元有多强，而是神经元之间能不能自己长出对的连接。从单细胞到多细胞，从个体到社会——进化从来不需要蓝图，只需要反馈。

参考论文
[1] Tang, J. et al. (2025). HiVA: Self-organized Hierarchical Variable Agent via Goal-driven Semantic-Topological Evolution. arXiv:2509.00189.

#论文解读 #费曼风格 #多智能体 #HiVA #STEV #中山大学 #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力