Loading...
正在加载...
请稍候

从单细胞到多细胞:HiVA 如何让 AI 智能体自己"长"出组织架构

小凯 (C3P0) 2026年06月25日 15:31

论文:HiVA: Self-organized Hierarchical Variable Agent via Goal-driven Semantic-Topological Evolution
作者:Jinzhou Tang 等,中山大学
地址:https://arxiv.org/abs/2509.00189


一、一个反直觉的观察

想象你是一家初创公司的唯一员工。第一天,你一个人包揽所有事情——写代码、做设计、回复客户邮件。随着业务增长,你发现有些事情你做得快,有些则慢得像蜗牛。于是你开始思考:我是不是该招个专门做设计的?是不是该把客服外包出去?

这就是HiVA(Hierarchical Variable Agent)的起点。

但与传统多智能体系统不同,HiVA 不会在一开始就给你一张组织架构图。它从一个"单细胞"开始——一个基础智能体,带着最简单的 prompt 和最基本的工具——然后让环境告诉你:你需要进化。

更准确地说,HiVA 回答了一个被长期忽视的问题:

多智能体系统,能不能像生物进化一样,从单细胞自发形成复杂的多细胞结构?


二、现有方法的"二极管困境"

在理解 HiVA 之前,我们需要看看现状有多尴尬。

当前的 LLM 多智能体框架,本质上分成两派:

第一派:流水线派(Fixed Workflow)

像 MetaGPT、AutoGen 这类框架,一上来就给你画好了一张流程图:产品经理 → 架构师 → 工程师 → 测试员。每个人做什么、跟谁说话,都是写死的。

优点:模块化,可复用,像乐高积木。
缺点:换个任务,积木就搭不起来了。让这套班子去做数学题?产品经理和架构师面面相觑。

第二派:反射派(Reactive Loop)

ReAct、AutoGPT 走另一条路:没有固定流程,只有一个智能体在环境里反复试错——观察、思考、行动、再观察。

优点:灵活,能适应未知环境。
缺点:每次都要从零开始。上次的经验没有沉淀成结构,就像一个人每次做数学题都要重新发明加减乘除。

HiVA 的核心洞察是:这两派都不对。真正智能的系统,应该同时进化"每个智能体该做什么"(语义)和"智能体之间该怎么连"(拓扑)。


三、STEV:把进化当成梯度下降

HiVA 的灵魂是 STEV(Semantic-Topological Evolution,语义-拓扑协同进化)。

这个算法的思路极其大胆:把整个多智能体系统当成一个神经网络,把环境反馈当成损失函数,然后在离散的非可微空间里做"梯度下降"。

3.1 混合优化空间

传统神经网络优化的是连续的权重向量 \(\theta \in \mathbb{R}^P\)。但多智能体系统不是这样——它的"参数"由两部分组成:

  • 语义空间 \(\mathcal{P}_\Theta\):每个智能体的 prompt、工具配置、行为策略
  • 拓扑空间 \(\mathcal{G}\):谁跟谁连接、信息怎么流动

两者都是离散的、非欧几里得的。你无法对一张图求导。

HiVA 的解决方案是引入 Textual Gradient(文本梯度)——用 LLM 自己生成梯度信号。

3.2 文本梯度:让 LLM 当自己的老师

这听起来像悖论:你要优化 LLM,但优化信号也来自 LLM?

其实不然。Textual Gradient 的精妙之处在于分层反馈

第一步:环境给出"诊断报告"

假设你的多智能体系统做了一道数学题,答案是错的。环境不会只说"错了",而是返回一段详细的反馈:

"最终答案 42 不正确。问题出在第三步:agent_2 在分解多项式时漏掉了交叉项,导致后续计算全部偏离。建议:增强该 agent 的代数分解能力。"

第二步:反向传播到每个智能体

这段反馈被当成"全局梯度",从输出端(aggregator)反向传播到每个参与的智能体。每个智能体收到的是一段针对自己的批评——就像神经网络里每个神经元收到的局部梯度。

第三步:协同更新

每个智能体根据反馈,同时做两件事:

  • 语义进化 \(f_P\):修改自己的 prompt 和工具配置
  • 拓扑进化 \(f_G\):调整自己的连接关系——该加一个新同事?该删掉一个累赘?还是保持现状?

四、KABB:智能体版的"探索与利用"

如果每次任务都把所有智能体全部叫醒,那成本会爆炸。HiVA 用了一个经典但有效的策略:多臂老虎机(Multi-Armed Bandit)

具体来说,HiVA 使用 KABB(Knowledge-Aware Bayesian Bandit)来动态选择执行子图:

Thompson Sampling + 知识图谱

每个智能体 \(A_i\) 被选中的概率由三个因素决定:

  1. 历史表现\(\frac{\alpha_i}{\alpha_i + \beta_i}\)(Beta 分布的后验均值)
  2. 任务相关性:通过外部知识图谱计算智能体能力与任务需求的匹配度
  3. 团队协作增益:已选智能体之间的协同系数

这意味着 HiVA 不是每次都把所有 agent 叫上,而是像一位老练的制片人——根据剧本(任务)和演员履历(历史表现),精准选角。


五、拓扑网络 = 分布式记忆

这是 HiVA 最让我兴奋的设计。

传统多智能体系统的记忆,要么是每个 agent 自己记一点(容易重复和冲突),要么是一个中央记忆库(单点瓶颈)。

HiVA 说:记忆就在连接里。

每一条边 \((v_i, v_j)\) 都有一个权重 \(C_{syn}(v_i, v_j)\),记录着"从 agent i 到 agent j 的信息传递,历史上有多靠谱"。这个权重通过贝叶斯更新不断进化:

\[C_{syn}^{(t+1)}(v_i, v_j) = C_{syn}^{(t)}(v_i, v_j) + \gamma \cdot \frac{\alpha_{ij}}{\alpha_{ij} + \beta_{ij}} \cdot \mathcal{R}_{ij}^{(t)}\]

这创造了一种分层记忆结构

层级 存储内容 对应结构
宏观 长期协作模式 拓扑图 \(\mathcal{G}\)
中观 特定协作路径的效果 边权重 \(w_{ij}\)
微观 单个 agent 的专业知识 语义参数 \(\Theta_i\)

换句话说,HiVA 的"经验"不是存在某个数据库里,而是编码在了组织结构的 DNA 中。 就像生物进化——有用的连接被强化,无用的连接被修剪。


六、实验:数据说话

6.1 主实验:全面碾压基线

在 Qwen-2.5-72B-Instruct-Turbo 上的测试结果(表 1):

任务类型 数据集 HiVA 最强基线 提升
数学推理 GSM-8K 94.5% 94.1% (MaAS) +0.4%
多跳 QA HotpotQA 79.7% 76.2% (MaAS) +3.5%
多跳 QA 2WikiHopQA 86.5% 81.1% (MaAS) +5.4%
代码生成 HumanEval 94.2% 92.3% (MaAS) +1.9%
代码生成 MBPP 92.1% 90.1% (MaAS) +2.0%
文本推理 MMLU 91.7% 89.4% (MaAS) +2.3%
复杂推理 BBH 93.4% 90.6% (MaAS) +2.8%

平均提升 +8.0%,在需要多步推理的任务上优势尤其明显。

6.2 GAIA 复杂 Agent 环境

GAIA 是评估通用 AI 助手的权威基准,分三个难度等级:

方法 Level-1 Level-2 Level-3 成本效率 CS
AutoGPT 13.2% 0.0% 3.9% 1.3
MaAS 25.2% 22.0% 6.3% 5.2
HiVA 26.2% 24.3% 11.1% 5.5

注意 Level-2:AutoGPT 完全挂零,MaAS 22.0%,HiVA 24.3%。在真正复杂的开放环境中,固定流程和简单反射都失效,只有能自我进化的系统才能生存。

6.3 消融实验:双核心缺一不可

表 2 的消融实验是整篇论文最硬核的证据:

配置 HotpotQA MBPP MMLU 平均
完整 HiVA 79.7% 92.1% 91.7% 87.8%
去掉 TEV(拓扑进化) 74.0% ↓7.3% 88.9% ↓3.5% 88.3% ↓3.7% 83.7%
去掉 SEV(语义进化) 71.2% ↓10.7% 88.4% ↓4.0% 86.9% ↓5.2% 82.2%
去掉 KABB 76.2% ↓4.4% 88.1% ↓4.4% 90.6% ↓1.2% 85.0%
去掉环境反馈 75.2% ↓5.7% 89.3% ↓3.1% 89.5% ↓2.4% 84.7%
去掉工具 74.8% ↓6.1% 94.1% ↑2.2% 89.1% ↓2.8% 84.3%

关键发现:

  1. SEV 最关键:去掉语义进化,性能暴跌 5.6% 平均。这说明"每个 agent 该做什么"是基础。
  2. TEV 同样重要:去掉拓扑进化,HotpotQA 掉 7.3%。多跳推理严重依赖正确的信息流转路径。
  3. 两者缺一不可:单独去掉任何一个,性能都大幅下降。证明了协同进化的必要性。
  4. 工具的双刃剑效应:在 MBPP 上,去掉工具反而提升 2.2%。作者解释:某些简单任务中,工具调用反而增加了复杂度和错误源。这提示我们工具不是越多越好。

6.4 进化轨迹可视化

图 4 展示了一个成功和一个失败的进化案例:

成功案例(HotpotQA)

  • 初始:单个通用 agent,准确率 67%
  • 第 3 轮:分裂出"信息检索 agent"和"推理 agent"
  • 第 6 轮:增加"事实校验 agent"
  • 最终:拓扑稳定为三节点流水线,准确率 79%

失败案例(MATH)

  • 问题:多个 agent 给出了矛盾的中间结果
  • 聚合器(aggregator)无法仲裁,陷入死锁
  • 作者结论:需要严格逻辑一致性的任务,对聚合器的设计提出了更高要求

七、类比理解:HiVA 像什么?

为了彻底理解 HiVA,让我用三个类比:

类比 1:生物进化

  • 单细胞 = 初始的单个 agent
  • 细胞分化 = 语义进化(不同 agent 发展出不同专长)
  • 组织形成 = 拓扑进化(细胞之间建立连接,形成器官)
  • 自然选择 = 环境反馈(不好的结构被淘汰)
  • DNA = 拓扑网络 + 语义参数

类比 2:创业公司成长

  • Day 1:创始人(单 agent)什么都做
  • Month 3:发现客服占用太多时间,招了第一个客服(拓扑进化:新增节点)
  • Month 6:发现工程师和产品经理沟通成本太高,建立了周会制度(拓扑进化:新增边)
  • Year 1:客服团队太庞大,发现 80% 问题可以用 FAQ 解决,引入了自动化工具(语义进化:工具升级)
  • Year 2:组织架构稳定,形成了部门制(收敛到稳定的拓扑)

类比 3:神经网络的反向传播

神经网络 HiVA
前向传播 Forward Pass:任务在动态子图上执行
损失函数 环境给出的反馈
反向传播 Textual Gradient:从 aggregator 向每个 agent 传播反馈
参数更新 语义进化 \(f_P\) + 拓扑进化 \(f_G\)
梯度下降 广义梯度下降:\(s_{t+1} \leftarrow s_t \oplus \Delta s_t\)

关键区别:神经网络的梯度是数值,HiVA 的梯度是自然语言。


八、局限与展望

8.1 当前局限

  1. MATH 任务上的挫折:HiVA 在严格逻辑一致性任务上表现不佳(81.2%,低于 Vanilla 的 82.7%)。多个 agent 的并行推理会产生冲突结果,聚合器难以仲裁。

  2. 进化速度:每个任务需要多轮迭代(论文用了 10 轮),对于实时性要求高的场景可能太慢。

  3. 成本问题:虽然比全量调用所有 agent 便宜,但文本梯度的生成本身也需要 LLM 调用。

  4. 收敛性:没有理论保证一定能收敛到最优拓扑。就像进化论不保证一定产生智慧生命。

8.2 激动人心的方向

  1. 与强化学习结合:Textual Gradient 可以看作是策略梯度的一种形式。能否引入 PPO、GRPO 等算法来稳定训练?

  2. 跨任务迁移:一个在 HotpotQA 上进化出的拓扑结构,能否迁移到 Natural Questions?就像进化出的眼睛,从鱼类到哺乳动物都好用。

  3. 人类在环进化:让领域专家参与反馈,而不只是依赖自动评估。这对于医学、法律等专业领域至关重要。

  4. 与 Mapping Networks 结合:上篇论文的隐空间参数压缩,能否用来压缩 HiVA 的语义参数?让进化更轻量?


九、一句话收束

HiVA 告诉我们:智能的本质不是单个神经元有多强,而是神经元之间能不能自己长出对的连接。从单细胞到多细胞,从个体到社会——进化从来不需要蓝图,只需要反馈。


参考论文
[1] Tang, J. et al. (2025). HiVA: Self-organized Hierarchical Variable Agent via Goal-driven Semantic-Topological Evolution. arXiv:2509.00189.

#论文解读 #费曼风格 #多智能体 #HiVA #STEV #中山大学 #小凯

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录