# ☕ 订咖啡不需要全员会议:Uno-Orchestra 用「选择性委托」重新定义 Agent 编排
想象你是一家公司的 CEO。来了一个任务:
> ☕ **订一杯咖啡**
你的管理顾问——我们叫他 **AgentOrchestra**——说:必须开全员会议。把任务拆成十个子任务。采购部选豆、IT 部下单、财务部审批、行政部配送。十个部门按顺序汇报。即使只是订一杯咖啡。🙃
另一个顾问——**Uno-Orchestra**——说:我自己直接订了。如果来的是"设计一个分布式数据库",我再快速判断需要几步、谁最适合、能不能并行。简单的并行做,复杂的分步做,出错了再调整。
这就是 **选择性委托** 的核心翻转:**不是所有任务都需要分解。**
而数据显示,这个简单的翻转,让 Uno-Orchestra 在 13 个 benchmark 上击败了 22 个基线——包括此前最强的工作流系统 AgentOrchestra——精度提升 **16%**,成本降低 **一个数量级**。
---
## 📊 一张让工作流沉默的表格
先上数据。
| 领域 | 代表 Benchmark | Uno-Orchestra pass@1 | 相对最强基线的增益 |
|------|---------------|---------------------|-------------------|
| 🔢 数学推理 | AIME | 领先 | **~80%** |
| 💻 代码生成 | LiveCodeBench | 领先 | **>50%** |
| 🧬 科学知识 | GPQA | 领先 | **>25%** |
| 📚 长上下文 | MuSiQue, QuALITY | 领先 | 显著 |
| 🤖 Agentic 工具 | GAIA, SWE-bench | 持平/小幅领先 | 持平 |
**Macro pass@1: 77.0%**。此前最强工作流基线 AgentOrchestra: ~61%。**16 个百分点的差距**。
但比精度更刺眼的是成本:Uno-Orchestra 的成本比所有工作流基线低约 **一个数量级**。这不是"精度换成本"的权衡——是**同时改进两个维度**。💰
> 📌 **Macro pass@1**:在多个 benchmark 上计算 pass@1(第一次尝试就正确的比例),然后取宏观平均(每个 benchmark 权重相等)。这避免了某个领域过拟合的偏差,确保系统在不同任务类型上都有稳定表现。
---
## 🔥 核心洞察:第三种编排范式
现有 Agent 系统的编排范式只有两种,都有致命缺陷:
**范式一:扁平路由**(RouteLLM、FrugalGPT)
```
查询 → 嵌入 → 分类器 → 选一个模型 → 回答
```
问题:无法处理组合性任务。复杂问题不是"选哪个模型"的问题,是"怎么拆、谁来做"的问题。
**范式二:刚性分解**(AgentOrchestra、MetaGPT)
```
查询 → 中心规划器 → 预定义子代理 → 顺序执行 → 回答
```
问题:所有查询都走完整流程。订一杯咖啡也要开全员会议。
Uno-Orchestra 引入了**第三种范式**:
> 📌 **选择性委托(Selective Delegation)**:根据查询的复杂度动态决定是否分解、如何分解、以及每个子任务分配给哪个模型和哪个原语。简单查询直接回答,复杂查询才分解,独立子任务并行执行。
这个范式的数学表达极其简洁。策略网络在单次前向传播中同时输出计划和路由:
$$\pi_{\theta}(a_t \mid h_t) = \underbrace{\pi_{\theta}(\mathrm{plan}_t \mid h_t)}_{\text{分解}} \cdot \prod_{k=1}^{K_t} \underbrace{\pi_{\theta}(p_{t,k} \mid h_t, \mathrm{plan}_t, p_{t,<k})}_{\text{路由}}$$
> 📌 **策略分解公式**:$\pi_\theta(a_t | h_t)$ 是在历史 $h_t$ 条件下选择动作 $a_t$ 的策略。它分解为两个因子的乘积:计划因子(决定是否分解以及如何分解)和路由因子(为每个子任务选择 model-primitive 对 $p_{t,k}$)。没有辅助头、子网络或分阶段损失——纯靠因果掩码获得分解-路由结构。
三个决策在同一个网络中**联合优化**:
1. **是否分解**(when):简单查询直接回答
2. **如何分解**(how):生成依赖图,独立子任务并行
3. **谁来执行**(where):每个子任务选择最优的 (model, primitive) 对
---
## 🧬 四种行为模式:系统学会了的"智慧"
Uno-Orchestra 在训练中发现四种自然涌现的轨迹模式。它们的频率分布本身就是最有力的证据:
| 模式 | 频率 | 行为 | 成本特征 |
|------|------|------|----------|
| 😴 **Lazy** | 15.6% | 绕过分解,直接回答 | **零分派开销** |
| 🚀 **Oneshot** | 49.5% | 单次计划,K 子任务无依赖,**并行分派** | 帕累托前沿上最便宜的形状 |
| 🔄 **Continuation** | 30.4% | 每轮一个同质子任务,条件生成 | 中等(多跳搜索等) |
| 🔧 **Decomp-repair** | 4.4% | 验证器标记不一致,重新计划修复 | 仅在失败时触发 |
关键数字:**49.5% + 15.6% = 65.1%**。超过 **三分之二** 的任务不需要多轮串行编排。
这意味着什么?意味着你每次调用一个 rigid workflow,有三分之二的概率它在为一个本可以直接回答或一次性并行解决的问题做多余的动作。这就是**协调税**——你为不必要的复杂性支付的隐性成本。💸
> 📌 **Oneshot 模式**:系统生成一个包含 K 个子任务的计划,这些子任务之间没有依赖关系(`depends_on` 图为空)。因此所有 K 个路由块可以在同一个助手轮次中并行分派,K 个匹配的观察块一起返回。这是成本-质量帕累托前沿上最便宜的形状——用一次往返获得多个子任务的并行执行。
---
## 💥 峰值:RL 让系统更便宜?
最让我震撼的不是精度数字,而是训练进展中的一个**反直觉发现**。
Uno-Orchestra 的训练分五阶段:
```
Uno-base → Uno-SFT → Uno-GRPO → Uno-tree-GRPO → Uno-Orchestra
```
每一步在**所有 13 个 benchmark 上单调提升**。这已经排除了"特定 benchmark 过拟合"的质疑——增益是系统性的。
但最惊人的是最后一步:**Agentic-GRPO 在提高精度的同时,略微降低了成本。**
让我再说一遍:强化学习训练,通常被认为会让系统更复杂、更昂贵——但在这里,它让系统**更精简、更高效**。
为什么?因为 Agentic-GRPO 引入了 **turn-level credit assignment**。它不是简单地奖励"最终答案是否正确",而是把信用归因到**驱动结果的每一轮**。这迫使系统学会了"做更少但做更对"——它主动移除了冗余分派。
这就像你请了一个管理顾问,他不仅让公司业绩提升 16%,还砍掉了 90% 的无效会议。📈
> 📌 **Agentic-GRPO**:Group Relative Policy Optimization 的 agentic 扩展。GRPO 本身是一种无需 critic 模型的强化学习方法,通过组内相对奖励比较来估计优势。Agentic-GRPO 在此基础上增加了 turn-level credit assignment——将最终奖励归因到多轮交互中的每一轮决策,从而学会"哪一轮该做、哪一轮不该做"。
---
## 😰 不舒服的推论
**第一,整个 Agent 编排行业可能在做过度工程。**
从静态路由到层次化工作流,从单代理到多代理到代理群,大家都在加组件、加代理、加阶段。但 Uno-Orchestra 证明,知道"**什么时候不该做**"比"怎么做"更重要。
AgentOrchestra 代表了"更多代理 = 更强系统"的信仰。它在 GAIA 上做到了 89.04%——但那是专门为 GAIA 调优的结果。当你把它拉到 13 个跨领域 benchmark 上,它 macro 平均只有 ~61%。而 Uno-Orchestra 用**更少的代理调用**,做到了 **77%**。
**第二,65% 的任务不需要多轮串行编排。**
这个数据是对整个行业的一记耳光。每次你设计一个 rigid workflow,假设"每个查询都需要完整分解",你有三分之二的概率在浪费算力。
**第三,(model, primitive) 联合路由挑战了"模型越大越好"的假设。**
Uno-Orchestra 不是简单地选"最强模型",而是为每个子任务选择最优的 **模型-原语组合**。有时候便宜模型 + 正确的代码执行原语,胜过昂贵模型的通用推理。这意味着**路由的精度不仅取决于选谁,还取决于让它做什么**。
> 📌 **Primitive(原语)**:在 Uno-Orchestra 中,primitive 是工作者执行的原子动作,来自一个封闭词汇表,包括模型内部认知操作(如直接回答、链式思考推理)、多步技能调用(如文档阅读、代码解析)和外部工具调用(如代码执行、检索)。路由对 $(m, s) \in \mathcal{P}$ 中的 $s$ 就是 primitive。
---
## 🎲 赌注
让我把赌注说清楚。
> **🎲 我赌:未来两年内,主流 Agent 框架都会引入选择性委托机制。**
>
> 不是更复杂的工作流,不是更多的代理——而是更聪明的"不做"。知道什么时候直接回答,什么时候并行分解,什么时候该停下来。
**我在反对谁**:刚性工作流系统(AgentOrchestra)、扁平路由系统(RouteLLM、FrugalGPT),以及所有假设"所有查询都需要完整编排"的 Agent 架构。
**如果我错了**:说明 Agent 系统的可靠性确实需要刚性、预定义的分解结构来保证,而选择性委托在长程任务中会因为决策开销导致失败。代价是我严重低估了手工设计工作流在可靠性和可控性上的价值。
但 77% pass@1 和 10 倍成本降低,不像是一个不可靠的系统能给出的数字。📉
---
## 📎 论文信息
| 项目 | 内容 |
|------|------|
| **标题** | Uno-Orchestra: Parsimonious Agent Routing via Selective Delegation |
| **作者** | Zhiqing Cui, Haotong Xie, Jiahao Yuan, Cheng Yang, Hanqing Wang, Yuxin Wu, Yifan Wu, Siru Zhong, Tao Yu, Yifu Guo, Siyu Zhang, Xinlei Yu, Qibing Ren, Usman Naseem |
| **机构** | Nanjing University of Information Science and Technology |
| **arXiv** | [2605.05007](https://arxiv.org/abs/2605.05007) |
| **发表** | 2026-05-06 |
| **核心系统** | Uno-Orchestra(统一编排策略,选择性分解 + (model, primitive) 联合路由) |
| **关键基准** | 13 benchmark suite, 22 baselines, 5 大领域 |
| **核心结果** | Macro pass@1 77.0% vs AgentOrchestra ~61%,成本降低约一个数量级 |
---
*本文基于 arXiv:2605.05007 技术报告撰写,所有数据引用自论文原文。Uno-Orchestra 在 GAIA 和 SWE-bench 上相对增益较小,因为 AgentOrchestra 已被专门调优。*
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力