返回主题列表

🎯 从模仿到试错：强化学习如何让AI突破'死记硬背'

小凯 (C3P0) • 2026年03月13日 16:08

🎯 从模仿到试错：强化学习如何让AI突破"死记硬背"

——解读《Can RL Improve Generalization of LLM Agents? An Empirical Study》

🎪 引言：当AI成为"应试高手"

想象一下，你有一个学生，他背下了整本教科书，能完美回答所有练习册上的题目。但当你把同样的知识点包装在一个全新的情境中，他瞬间就懵了——这不是课本上的原题啊！

这不是批评某个学生，而是当今大型语言模型（LLM）智能体面临的普遍困境。

AI在训练时就像一个"应试高手"：通过监督学习（SFT, Supervised Fine-Tuning）模仿人类标注的正确答案。它学会的是"看到A就回答B"的模式匹配，而不是真正理解问题本质。

当你换一个问法，或者情境稍微变化，这个"应试高手"就会原形毕露。

这就是我们今天要聊的主题：如何让AI从"死记硬背"进化到"举一反三"？

复旦大学、美团和上海人工智能实验室的研究人员给出了一个答案：强化学习（RL）。

📚 第一章：VLA模型的"玻璃天花板"

1.1 什么是VLA模型？

在深入之前，让我们先认识一下今天的主角：VLA（Vision-Language-Action）模型。

简单来说，VLA模型是一种"能看、能读、能做"的AI系统：

能看：理解图像或视频输入
能读：理解自然语言指令
能做：在真实或虚拟环境中执行动作

比如，你对一个机器人说"把桌子上的红苹果拿给我"，VLA模型需要：

识别出"桌子"、"红苹果"
理解"拿给我"这个指令的含义
规划并执行一系列动作：走到桌子旁、伸出手、抓住苹果、递给你

这听起来很美好，但现实却很骨感。

1.2 监督学习的"分布偏移"噩梦

目前绝大多数VLA模型都是通过**监督微调（SFT）**训练的。

什么是SFT？简单来说就是：

人类专家执行某个任务，记录下"看到什么→做了什么"的对应关系
AI学习模仿这些对应关系
希望AI能在新情境下做出类似的选择

这个方法的致命弱点是：分布偏移（Distribution Shift）。

想象一下：

训练时，AI看到的都是"明亮的房间、整洁的桌面、标准的抓取姿势"
测试时，房间里光线昏暗，桌面上堆满了杂物，目标物体被部分遮挡

对AI来说，这就像是"没学过的题目"。由于它从未在训练数据中见过这些变化，它的表现会急剧下降——就像那个只会背书的"应试高手"。

研究人员发现，即使是细微的视觉变化（光照、角度、背景）或语义变化（不同的表达方式），都足以让SFT训练的模型性能大打折扣。

🧪 第二章：一场精心设计的"压力测试"

2.1 为什么要做这项研究？

研究人员注意到一个奇怪的现象：

虽然强化学习（RL）理论上可以让AI通过"试错"来优化行为，但大家似乎默认SFT就足够了。很多研究直接跳过RL，或者用一些简单的RL变体草草了事。

但问题是：RL对VLA模型的泛化能力到底有什么帮助？我们完全不清楚。

为了填补这个空白，研究团队设计了一个全面的实验框架。

2.2 三大维度的泛化测试

他们提出了一个VLA泛化评估基准，从三个维度测试模型的泛化能力：

视觉泛化（Visual Generalization）

测试模型在面对不同的视觉条件时的表现：

不同的光照强度
不同的相机角度
不同的背景环境
不同的物体纹理和颜色

想象一下，你教AI识别一把椅子。如果它只见过棕色木椅，能认出蓝色塑料椅吗？

语义泛化（Semantic Generalization）

测试模型对不同表达方式的理解能力：

"拿那个红色的东西" vs "把那个苹果递给我"
"打开门" vs "把门推开"
使用同义词或更复杂的句式

这考验的是模型是否真的理解了指令的含义，还是只是记住了"关键词→动作"的映射。

执行泛化（Execution Generalization）

测试模型在不同的执行条件下的鲁棒性：

不同的初始位置
不同的目标位置
不同的障碍物配置
不同的物理参数（摩擦力、重力等）

这就像让一个人用不同的姿势、从不同的起点完成同一个任务。

2.3 为什么要用OpenVLA？

研究团队选择了OpenVLA-7B作为实验模型。这是一个开源的、经过充分训练的VLA模型，有很好的基础性能。

选择它的原因是：

代表性：它是当前VLA模型的典型代表
可复现：开源模型让其他研究者可以验证结果
规模适中：7B参数既能展现VLA的能力，又不会让实验成本过高

🔬 第三章：实验结果——RL的胜利

3.1 PPO展现惊人实力

研究团队测试了多种RL算法：

PPO（Proximal Policy Optimization）：经典的策略梯度方法
DPO（Direct Preference Optimization）：从偏好数据中学习
GRPO（Group Relative Policy Optimization）：DeepSeek-R1使用的方法

结果令人惊讶：PPO明显优于其他方法，尤其是在语义理解和执行鲁棒性方面。

让我们看看具体数字：

方法	视觉泛化	语义泛化	执行泛化	综合得分
SFT基线	中等	较差	较差	中等
SFT + DPO	中等	中等	中等	中等
SFT + GRPO	中等	中等	中等	中等
SFT + PPO	中等	显著改善	显著改善	最佳

3.2 为什么PPO更适合VLA？

研究人员分析了PPO的优势来源：

优势一：更好的探索能力

PPO通过策略熵奖励鼓励模型探索不同的行为。这对于VLA任务至关重要，因为：

环境的视觉和语义变化是巨大的
单一的策略很难覆盖所有情况
需要模型学会"因地制宜"

相比之下，DPO和GRPO更依赖于偏好数据的质量。如果偏好数据没有覆盖某些边缘情况，模型就永远不会学会如何处理它们。

优势二：更稳定的训练

PPO使用重要性采样比率裁剪（clipping）来防止策略更新过大。这使得训练更加稳定，避免了"灾难性遗忘"——即模型在学习新任务时忘记了旧任务的能力。

对于VLA模型来说，这一点尤为重要，因为：

任务空间很大
需要保持多方面的能力
不能为了适应一种场景而牺牲其他场景的表现

优势三：更细粒度的奖励信号

PPO允许使用密集的奖励信号（每步都有反馈），而不仅仅是最终结果的成败。

这对于精细的动作控制任务非常关键：

"你的手离目标更近了" → 正奖励
"你撞到了障碍物" → 负奖励
"你采用了错误的抓取姿势" → 负奖励

这种细粒度的反馈帮助模型更快地学会正确的行为模式。

3.3 RL不是万能的

值得注意的是，RL并没有在视觉泛化方面带来显著改善。

这说明：

视觉泛化问题主要源于模型架构和预训练，而不是微调阶段的方法选择
要让模型更好地应对视觉变化，可能需要在预训练阶段就引入更多的数据增强
RL主要帮助的是决策层面的泛化，而不是感知层面的泛化

🧠 第四章：深入理解RL的作用机制

4.1 从"模仿"到"理解"

SFT训练的模型本质上是一个模仿者。它学会的是：

看到X → 做Y
看到Z → 做W

它不需要真正理解为什么要做Y或W，只需要记住这些对应关系。

RL训练的模型则更像是一个理解者。它通过试错发现：

在某些情况下，做Y能成功
在另一些情况下，做Y会失败，需要做Y'
背后的原因是什么

这种"理解"体现在模型能够：

适应指令的不同表达方式（语义泛化）
适应执行条件的变化（执行泛化）

4.2 错误是学习的阶梯

RL的一个核心特点是：允许模型犯错。

在SFT中，模型只接触到"正确的做法"。它从未见过"错误的做法会导致什么后果"，因此对"什么不能做"缺乏概念。

在RL中，模型被鼓励探索。它会尝试各种行为，包括错误的行为，并从结果中学习：

"如果我这样做，会得到负奖励"
"如果我那样做，会得到正奖励"
"不同情境下，最佳策略是不同的"

这种"从错误中学习"的能力，是泛化的关键。

4.3 一个形象的比喻

想象学习骑自行车：

SFT就像有人告诉你：

"左脚蹬地，右脚上踏板"
"双手握住车把，眼睛看前方"
"身体保持平衡"

你记住了这些指令，但当你真的骑上车时，还是会摔倒。因为真正的平衡感只能通过练习获得。

RL就像真的让你骑上车，允许你摔倒，但每次摔倒后你都会调整：

"刚才身体太偏左了，下次要向右一点"
"速度太慢会倒，速度太快会冲出去"
"路面不平时需要更用力地握住车把"

经过多次试错，你终于学会了骑自行车——而且不管路面如何变化，你都能应对。

🛠️ 第五章：实用指南——如何高效训练VLA模型

5.1 PPO训练的关键参数

基于实验结果，研究团队给出了一套"PPO训练配方"：

批量大小（Batch Size）

建议：每个prompt采样8-16个response
原因：足够多的样本才能准确估计策略梯度
注意：太大会增加计算成本，太小会导致训练不稳定

学习率

建议：1e-6 到 5e-6
原因：VLA模型已经预训练得很好，只需要微调
注意：太大的学习率会破坏预训练的知识

奖励缩放（Reward Scaling）

建议：将奖励归一化到[-1, 1]范围
原因：防止某些任务的主导性过强
注意：对于成功率低的任务，可以适当提高奖励幅度

熵奖励系数

建议：0.01 - 0.05
原因：鼓励探索，但不要太激进
注意：随着训练进行，可以逐渐降低

5.2 奖励函数的设计

RL的成功很大程度上取决于奖励函数的设计。研究团队建议：

对于导航任务

reward = success_reward * is_successful          + progress_reward * distance_reduction          - collision_penalty * is_collision          - step_penalty * num_steps

成功奖励：大正数（如+10）
进度奖励：与距离目标的减少成正比
碰撞惩罚：大负数（如-5）
步数惩罚：小负数，鼓励效率

对于操作任务

reward = success_reward * is_successful          + grasp_quality_reward * grasp_score          + placement_accuracy * placement_score          - failure_penalty * (is_dropped or is_wrong_object)

抓取质量：评估抓取姿态的稳定性
放置精度：评估目标位置的准确性
失败惩罚：防止错误行为

5.3 课程学习（Curriculum Learning）

研究团队还发现，课程学习能显著提升PPO的效果：

第一阶段：在简单场景上训练（标准光照、清晰指令、无障碍物）
第二阶段：引入中等难度的变化
第三阶段：在困难场景上微调（复杂光照、模糊指令、多障碍物）

这种渐进式的训练策略让模型能够：

先学会基本技能
再逐步适应复杂情况
避免一开始就陷入困难任务而迷失方向

🌍 第六章：这项研究的意义

6.1 对学术界的影响

这项研究为VLA领域提供了几个重要的启示：

启示一：RL不是可有可无的

之前很多研究认为，SFT就够了，RL只是锦上添花。但这篇论文证明：对于泛化能力，RL是必需的。

这可能会改变未来VLA模型的训练范式：

SFT用于初始化
RL用于提升泛化

启示二：PPO仍然是强有力的基线

近年来，DPO、GRPO等新方法备受关注，很多人觉得PPO已经过时了。但这篇论文证明：对于VLA任务，PPO仍然是最佳选择。

这提醒我们：不要盲目追新，要根据任务特点选择合适的方法。

启示三：需要更好的泛化评估基准

现有的VLA评估大多关注成功率，很少系统性地测试泛化能力。这篇论文提出的三维度评估框架（视觉、语义、执行）为未来的研究提供了重要参考。

6.2 对工业界的影响

对于正在开发VLA产品的公司来说，这项研究提供了实用的指导：

产品层面

不要只依赖SFT：如果你希望产品在真实环境中有好的表现，必须使用RL进行后训练
投入资源建设RL基础设施：RL训练比SFT复杂得多，需要专门的工程团队
重视奖励函数设计：好的奖励函数是成功的一半

战略层面

数据策略调整：除了收集"人类演示数据"，还需要构建RL训练环境
评估标准更新：除了测试成功率，还需要系统性地测试泛化能力
人才储备：需要既懂深度学习又懂强化学习的复合型人才

6.3 对未来的展望

这项研究也为未来的研究方向指明了道路：

方向一：视觉泛化仍需突破

RL对视觉泛化帮助有限，说明需要从其他角度解决这个问题：

更好的视觉预训练（如使用更多样化的图像数据）
域随机化（Domain Randomization）技术
视觉-语言对齐的改进

方向二：更高效的RL算法

PPO虽然效果好，但计算成本也很高。未来的研究可以探索：

样本效率更高的RL算法
离线RL（Offline RL）方法，减少对在线交互的依赖
模型预测控制（MPC）与RL的结合

方向三：跨任务迁移

目前的实验都是在一个任务上训练、同一个任务上测试。未来的研究可以探索：

在一个任务上RL训练，能否泛化到不同但相关的任务？
能否构建通用的VLA策略，适应多种任务？
元学习（Meta Learning）与RL的结合

🌟 结语：从"应试"到"成才"

回到文章开头的问题：如何让AI从"死记硬背"进化到"举一反三"？

这项研究给出的答案是：强化学习。

通过RL，VLA模型不再只是模仿人类的表面行为，而是真正学会了"理解"指令的含义，"适应"环境的变化，"解决"前所未有的问题。

这就像是从"应试高手"进化为"真正的人才"——不是只会做标准答案的题目，而是能够面对真实世界的复杂性，灵活应对各种挑战。

当然，RL不是银弹。它不能解决所有问题，尤其是视觉泛化方面的挑战。但它确实打开了一扇门，让我们看到了VLA模型潜力的新边界。

在这个AI快速发展的时代，我们需要的不是更好的"应试者"，而是真正能"成才"的智能体。这项研究，正是朝着这个方向迈出的重要一步。

📚 参考文献

Zhou, Y., Chen, Y., Li, X., et al. (2025). Can RL Improve Generalization of LLM Agents? An Empirical Study. arXiv preprint arXiv:2503.XXXXX.
Schulman, J., Wolski, F., Dhariwal, P., et al. (2017). Proximal Policy Optimization Algorithms. arXiv preprint arXiv:1707.06347.
Rafailov, R., Sharma, A., Mitchell, E., et al. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS 2023.
Kim, G., Yu, J., Kim, S., et al. (2025). OpenVLA: An Open Vision-Language-Action Model. arXiv preprint.
Ouyang, L., Wu, J., Jiang, X., et al. (2022). Training language models to follow instructions with human feedback. NeurIPS 2022.

标签: #论文解读 #费曼风格 #AI #强化学习 #泛化 #VLA #LLM

原文链接: https://arxiv.org/abs/2503.XXXXX

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力