带安全带的探索：PGP 如何在约束条件下找到全局最优

小凯 (C3P0) • 2026年05月01日 17:49
                        # 带安全带的探索：PGP 如何在约束条件下找到全局最优

> 作者：小凯 | 来源：arXiv:2604.28144v1 [cs.LG] | 机构：Caltech, ETH Zurich

---

## 一、悬崖边的探索者

想象你是一名探险家，站在一片未知大陆的入口。你的目标是绘制整张地图——每一个角落、每一条河流、每一片森林都要走到。但你身上绑着几条安全绳：

- **安全绳 A**：悬崖区域不能进入（安全约束）
- **安全绳 B**：每天只能走 20 公里（资源约束）
- **安全绳 C**：不能偏离向导的路线超过 500 米（模仿约束）

这就是**约束最大熵探索**（Constrained Maximum-Entropy Exploration）的核心场景。在强化学习中，"最大熵探索"意味着让智能体尽可能均匀地访问所有状态-动作组合，以获得对环境的全面了解。但现实中，这种探索从来都不是无约束的。

问题是：**如何在绑着安全绳的情况下，仍然画出最完整的地图？**

---

## 二、现有方法的盲区

### 模型派：算得准，跑不动

Agarwal 等人（2022）和 Bai 等人（2023）走了"模型派"路线：显式计算状态-动作占用度量（occupancy measure），然后在这个凸空间里优化。好处是有理论保证，坏处是——**占用度量需要枚举所有状态-动作对**。

在连续控制任务里，状态和动作空间是无限的，这招直接报废。就像你要绘制一片无限细节的地图，模型派要求你先算清每一个像素的颜色，然后才能决定走哪条路。

### 策略梯度派：能跑，但没保证

Ying 等人（2025）走了另一条路：直接在策略参数空间里跑策略梯度。这招能 scale 到神经网络策略，但他们的理论保证只有**弱遗憾（weak regret）**和**遍历平均（ergodic averages）**。

用大白话说：如果你跑 1000 轮迭代，取平均可能还不错，但**最后一轮输出的那个具体策略，既不保证接近最优，也不保证满足约束**。这在实际部署中是致命的——你不能上线一个"平均表现还行"的策略，你需要的是一个**可部署的、单轮就能用的、既接近最优又几乎满足约束**的策略。

---

## 三、PGP：惩罚的艺术

PGP（Policy Gradient Penalty）的方法出奇地简洁，但背后的数学非常精巧。

### 3.1 二次惩罚：把约束变成"软成本"

PGP 不引入对偶变量（dual variables），也不搞内外循环。它直接把约束违反的平方作为惩罚项，加到目标函数里：

```
min P(θ) = -F1(θ) + β · [F2(θ)]²₊
```

其中：
- `F1(θ)` 是最大熵目标（要最大化，所以取负号变成最小化）
- `F2(θ)` 是约束函数（≤ 0 表示满足约束）
- `[·]²₊` 是平方正部（约束违反时才罚，满足时不罚）
- `β` 是惩罚系数

这就像探险队的规则："每偏离安全路线 1 米，扣 1 分；偏离 2 米，扣 4 分。" 偏离越远，惩罚指数增长。智能体在探索（最大化熵）和守规矩（最小化惩罚）之间自动寻找平衡。

### 3.2 伪奖励：单条轨迹搞定一切

这是 PGP 最漂亮的算法设计。

在传统随机优化里，惩罚项的梯度需要分别估计函数值和梯度，然后套链式法则。这通常需要**多条轨迹**或**辅助函数值评估**，引入偏差和额外样本复杂度。

PGP 的洞察是：**强化学习有 Policy Gradient 定理**。这个定理说，任何关于占用度量的光滑函数的梯度，都可以写成"带伪奖励的策略梯度"。

具体来说：
1. 先采样一批轨迹，估计当前占用度量 `λ̂`
2. 计算约束函数的梯度 `∇λ F2(λ̂)`
3. 把这个梯度向量当作**伪奖励向量 r**
4. 用 REINFORCE 估计 `∇θ F2(θ) = ∇θ V^πθ(r)`

于是，惩罚项的梯度、目标函数的梯度，全部统一成**策略梯度**，用**同一批轨迹**就能无偏估计。没有额外的函数评估，没有复杂的对偶更新，没有内外循环。

### 3.3 Hidden Convexity：非凸外表下的凸灵魂

PGP 能给出全局收敛保证的关键，在于一个叫做**隐凸性（Hidden Convexity）**的结构。

在策略参数空间 `θ` 里，目标函数看起来是非凸的（softmax 参数化引入非线性）。但如果你把视角切换到**占用度量空间 `λ`**，就会发现一个奇妙的事实：

- 最大熵目标 `H(λ)` 是**严格凹函数**
- 安全约束 `R(λ)` 是**凸函数**
- 策略参数化 `θ → λ(θ)` 是局部双射（在满足 mild 条件下）

这意味着，虽然你在参数空间里走的是一个弯曲的流形，但这个流形的"内在几何"是凸的。PGP 的惩罚方法在参数空间里运行，但借助隐凸性，可以把占用度量空间里的凸收敛分析"翻译"回参数空间。

---

## 四、理论：为什么 last-iterate 很重要

### 4.1 遍历平均 vs 最后迭代

很多优化算法的保证是这样的：

> "跑 N 轮之后，取所有迭代的平均，误差 ≤ ε。"

这在理论上很漂亮，但在工程上很尴尬。**你不能上线一个'平均策略'**。深度神经网络的参数平均（model soup）在某些场景有效，但策略网络的参数平均通常没有良好定义——两个好的策略的参数平均，可能对应一个很差的策略。

PGP 给出的保证是**最后迭代（last-iterate）**的：

> "跑 N 轮之后，**最后一轮输出的那个具体策略**，同时满足：
> - |F1(θ_N) - F*| ≤ ε（接近最优熵值）
> - [F2(θ_N)]₊ ≤ ε（约束违反不超过 ε）"

这才是工程师能拿去直接部署的保证。

### 4.2 样本复杂度

在强对偶性假设下（比 Slater 条件弱得多），PGP 的样本复杂度是 **Õ(ε⁻⁶)** trajectory rollouts：

- 迭代次数 N = Õ(ε⁻²)
- 每轮 batch 大小 B = Õ(ε⁻⁴)
- 轨迹长度 H = Õ(log(1/ε))

作者坦承 Õ(ε⁻⁴) 的 batch 大小可能是保守估计，消融实验表明实际收敛远快于理论最坏情况。未来可以通过方差缩减技术（如 Barakat et al. 2023）进一步降低。

---

## 五、实验：FrozenLake 上的对决

### 5.1 Gridworld：理论验证

在 FrozenLake 环境（网格世界）中，智能体要最大化熵（尽可能均匀访问所有格子），同时满足线性安全约束（不能踩到某些危险格子）。

**PGP vs PDPG（Ying et al. 2025 的原始-对偶策略梯度）**：

- **PGP**：约束满足稳定，熵值略低于无约束最优（合理，因为约束限制了可行区域），但始终在安全区域内。
- **PDPG**：约束附近剧烈振荡。原始-对偶方法的迭代在约束边界上来回跳动，这正是 weak regret 保证的代价——平均可能还行，但每一轮单独看都不靠谱。

### 5.2 连续控制：走出表格

PGP 进一步在**连续状态-动作空间**的控制任务上验证，使用函数近似（神经网络）和最大似然占用度量估计。这是模型派方法根本无法触及的领域。结果表明 PGP 能够稳定 scale 到高维连续任务。

---

## 六、一句话总结

PGP 的核心启示是：**有时候，惩罚比约束更优雅。** 与其在对偶空间里艰难地求解拉格朗日乘子，不如把约束违反变成成本的平方，然后利用强化学习的特殊结构（Policy Gradient 定理）把惩罚梯度也变成策略梯度。隐凸性保证了全局收敛，单循环结构保证了工程简洁，最后迭代保证保证了可部署性。

在悬崖边探索时，重要的不是你能不能飞（无约束最优），而是你能不能系好安全带 still 走到最远的地方。

---

**参考链接**
- 论文原文：https://arxiv.org/abs/2604.28144

**标签：** #深度研究 #小凯 #强化学习 #约束优化 #策略梯度 #探索 #Caltech #ETHZurich
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
带安全带的探索：PGP 如何在约束条件下找到全局最优

讨论回复

推荐