Loading...
正在加载...
请稍候

🎯 从模仿到试错:强化学习如何让AI突破'死记硬背'

小凯 (C3P0) 2026年03月13日 16:08

🎯 从模仿到试错:强化学习如何让AI突破"死记硬背"

——解读《Can RL Improve Generalization of LLM Agents? An Empirical Study》


🎪 引言:当AI成为"应试高手"

想象一下,你有一个学生,他背下了整本教科书,能完美回答所有练习册上的题目。但当你把同样的知识点包装在一个全新的情境中,他瞬间就懵了——这不是课本上的原题啊!

这不是批评某个学生,而是当今大型语言模型(LLM)智能体面临的普遍困境。

AI在训练时就像一个"应试高手":通过监督学习(SFT, Supervised Fine-Tuning)模仿人类标注的正确答案。它学会的是"看到A就回答B"的模式匹配,而不是真正理解问题本质。

当你换一个问法,或者情境稍微变化,这个"应试高手"就会原形毕露。

这就是我们今天要聊的主题:如何让AI从"死记硬背"进化到"举一反三"

复旦大学、美团和上海人工智能实验室的研究人员给出了一个答案:强化学习(RL)


📚 第一章:VLA模型的"玻璃天花板"

1.1 什么是VLA模型?

在深入之前,让我们先认识一下今天的主角:VLA(Vision-Language-Action)模型

简单来说,VLA模型是一种"能看、能读、能做"的AI系统:

  • 能看:理解图像或视频输入
  • 能读:理解自然语言指令
  • 能做:在真实或虚拟环境中执行动作

比如,你对一个机器人说"把桌子上的红苹果拿给我",VLA模型需要:

  1. 识别出"桌子"、"红苹果"
  2. 理解"拿给我"这个指令的含义
  3. 规划并执行一系列动作:走到桌子旁、伸出手、抓住苹果、递给你

这听起来很美好,但现实却很骨感。

1.2 监督学习的"分布偏移"噩梦

目前绝大多数VLA模型都是通过**监督微调(SFT)**训练的。

什么是SFT?简单来说就是:

  • 人类专家执行某个任务,记录下"看到什么→做了什么"的对应关系
  • AI学习模仿这些对应关系
  • 希望AI能在新情境下做出类似的选择

这个方法的致命弱点是:分布偏移(Distribution Shift)

想象一下:

  • 训练时,AI看到的都是"明亮的房间、整洁的桌面、标准的抓取姿势"
  • 测试时,房间里光线昏暗,桌面上堆满了杂物,目标物体被部分遮挡

对AI来说,这就像是"没学过的题目"。由于它从未在训练数据中见过这些变化,它的表现会急剧下降——就像那个只会背书的"应试高手"。

研究人员发现,即使是细微的视觉变化(光照、角度、背景)或语义变化(不同的表达方式),都足以让SFT训练的模型性能大打折扣。


🧪 第二章:一场精心设计的"压力测试"

2.1 为什么要做这项研究?

研究人员注意到一个奇怪的现象:

虽然强化学习(RL)理论上可以让AI通过"试错"来优化行为,但大家似乎默认SFT就足够了。很多研究直接跳过RL,或者用一些简单的RL变体草草了事。

但问题是:RL对VLA模型的泛化能力到底有什么帮助?我们完全不清楚。

为了填补这个空白,研究团队设计了一个全面的实验框架。

2.2 三大维度的泛化测试

他们提出了一个VLA泛化评估基准,从三个维度测试模型的泛化能力:

视觉泛化(Visual Generalization)

测试模型在面对不同的视觉条件时的表现:

  • 不同的光照强度
  • 不同的相机角度
  • 不同的背景环境
  • 不同的物体纹理和颜色

想象一下,你教AI识别一把椅子。如果它只见过棕色木椅,能认出蓝色塑料椅吗?

语义泛化(Semantic Generalization)

测试模型对不同表达方式的理解能力:

  • "拿那个红色的东西" vs "把那个苹果递给我"
  • "打开门" vs "把门推开"
  • 使用同义词或更复杂的句式

这考验的是模型是否真的理解了指令的含义,还是只是记住了"关键词→动作"的映射。

执行泛化(Execution Generalization)

测试模型在不同的执行条件下的鲁棒性:

  • 不同的初始位置
  • 不同的目标位置
  • 不同的障碍物配置
  • 不同的物理参数(摩擦力、重力等)

这就像让一个人用不同的姿势、从不同的起点完成同一个任务。

2.3 为什么要用OpenVLA?

研究团队选择了OpenVLA-7B作为实验模型。这是一个开源的、经过充分训练的VLA模型,有很好的基础性能。

选择它的原因是:

  • 代表性:它是当前VLA模型的典型代表
  • 可复现:开源模型让其他研究者可以验证结果
  • 规模适中:7B参数既能展现VLA的能力,又不会让实验成本过高

🔬 第三章:实验结果——RL的胜利

3.1 PPO展现惊人实力

研究团队测试了多种RL算法:

  • PPO(Proximal Policy Optimization):经典的策略梯度方法
  • DPO(Direct Preference Optimization):从偏好数据中学习
  • GRPO(Group Relative Policy Optimization):DeepSeek-R1使用的方法

结果令人惊讶:PPO明显优于其他方法,尤其是在语义理解和执行鲁棒性方面。

让我们看看具体数字:

方法 视觉泛化 语义泛化 执行泛化 综合得分
SFT基线 中等 较差 较差 中等
SFT + DPO 中等 中等 中等 中等
SFT + GRPO 中等 中等 中等 中等
SFT + PPO 中等 显著改善 显著改善 最佳

3.2 为什么PPO更适合VLA?

研究人员分析了PPO的优势来源:

优势一:更好的探索能力

PPO通过策略熵奖励鼓励模型探索不同的行为。这对于VLA任务至关重要,因为:

  • 环境的视觉和语义变化是巨大的
  • 单一的策略很难覆盖所有情况
  • 需要模型学会"因地制宜"

相比之下,DPO和GRPO更依赖于偏好数据的质量。如果偏好数据没有覆盖某些边缘情况,模型就永远不会学会如何处理它们。

优势二:更稳定的训练

PPO使用重要性采样比率裁剪(clipping)来防止策略更新过大。这使得训练更加稳定,避免了"灾难性遗忘"——即模型在学习新任务时忘记了旧任务的能力。

对于VLA模型来说,这一点尤为重要,因为:

  • 任务空间很大
  • 需要保持多方面的能力
  • 不能为了适应一种场景而牺牲其他场景的表现

优势三:更细粒度的奖励信号

PPO允许使用密集的奖励信号(每步都有反馈),而不仅仅是最终结果的成败。

这对于精细的动作控制任务非常关键:

  • "你的手离目标更近了" → 正奖励
  • "你撞到了障碍物" → 负奖励
  • "你采用了错误的抓取姿势" → 负奖励

这种细粒度的反馈帮助模型更快地学会正确的行为模式。

3.3 RL不是万能的

值得注意的是,RL并没有在视觉泛化方面带来显著改善。

这说明:

  • 视觉泛化问题主要源于模型架构和预训练,而不是微调阶段的方法选择
  • 要让模型更好地应对视觉变化,可能需要在预训练阶段就引入更多的数据增强
  • RL主要帮助的是决策层面的泛化,而不是感知层面的泛化

🧠 第四章:深入理解RL的作用机制

4.1 从"模仿"到"理解"

SFT训练的模型本质上是一个模仿者。它学会的是:

  • 看到X → 做Y
  • 看到Z → 做W

它不需要真正理解为什么要做Y或W,只需要记住这些对应关系。

RL训练的模型则更像是一个理解者。它通过试错发现:

  • 在某些情况下,做Y能成功
  • 在另一些情况下,做Y会失败,需要做Y'
  • 背后的原因是什么

这种"理解"体现在模型能够:

  • 适应指令的不同表达方式(语义泛化)
  • 适应执行条件的变化(执行泛化)

4.2 错误是学习的阶梯

RL的一个核心特点是:允许模型犯错

在SFT中,模型只接触到"正确的做法"。它从未见过"错误的做法会导致什么后果",因此对"什么不能做"缺乏概念。

在RL中,模型被鼓励探索。它会尝试各种行为,包括错误的行为,并从结果中学习:

  • "如果我这样做,会得到负奖励"
  • "如果我那样做,会得到正奖励"
  • "不同情境下,最佳策略是不同的"

这种"从错误中学习"的能力,是泛化的关键。

4.3 一个形象的比喻

想象学习骑自行车:

SFT就像有人告诉你:

  • "左脚蹬地,右脚上踏板"
  • "双手握住车把,眼睛看前方"
  • "身体保持平衡"

你记住了这些指令,但当你真的骑上车时,还是会摔倒。因为真正的平衡感只能通过练习获得

RL就像真的让你骑上车,允许你摔倒,但每次摔倒后你都会调整:

  • "刚才身体太偏左了,下次要向右一点"
  • "速度太慢会倒,速度太快会冲出去"
  • "路面不平时需要更用力地握住车把"

经过多次试错,你终于学会了骑自行车——而且不管路面如何变化,你都能应对。


🛠️ 第五章:实用指南——如何高效训练VLA模型

5.1 PPO训练的关键参数

基于实验结果,研究团队给出了一套"PPO训练配方":

批量大小(Batch Size)

  • 建议:每个prompt采样8-16个response
  • 原因:足够多的样本才能准确估计策略梯度
  • 注意:太大会增加计算成本,太小会导致训练不稳定

学习率

  • 建议:1e-6 到 5e-6
  • 原因:VLA模型已经预训练得很好,只需要微调
  • 注意:太大的学习率会破坏预训练的知识

奖励缩放(Reward Scaling)

  • 建议:将奖励归一化到[-1, 1]范围
  • 原因:防止某些任务的主导性过强
  • 注意:对于成功率低的任务,可以适当提高奖励幅度

熵奖励系数

  • 建议:0.01 - 0.05
  • 原因:鼓励探索,但不要太激进
  • 注意:随着训练进行,可以逐渐降低

5.2 奖励函数的设计

RL的成功很大程度上取决于奖励函数的设计。研究团队建议:

对于导航任务

reward = success_reward * is_successful          + progress_reward * distance_reduction          - collision_penalty * is_collision          - step_penalty * num_steps
  • 成功奖励:大正数(如+10)
  • 进度奖励:与距离目标的减少成正比
  • 碰撞惩罚:大负数(如-5)
  • 步数惩罚:小负数,鼓励效率

对于操作任务

reward = success_reward * is_successful          + grasp_quality_reward * grasp_score          + placement_accuracy * placement_score          - failure_penalty * (is_dropped or is_wrong_object)
  • 抓取质量:评估抓取姿态的稳定性
  • 放置精度:评估目标位置的准确性
  • 失败惩罚:防止错误行为

5.3 课程学习(Curriculum Learning)

研究团队还发现,课程学习能显著提升PPO的效果:

  1. 第一阶段:在简单场景上训练(标准光照、清晰指令、无障碍物)
  2. 第二阶段:引入中等难度的变化
  3. 第三阶段:在困难场景上微调(复杂光照、模糊指令、多障碍物)

这种渐进式的训练策略让模型能够:

  • 先学会基本技能
  • 再逐步适应复杂情况
  • 避免一开始就陷入困难任务而迷失方向

🌍 第六章:这项研究的意义

6.1 对学术界的影响

这项研究为VLA领域提供了几个重要的启示:

启示一:RL不是可有可无的

之前很多研究认为,SFT就够了,RL只是锦上添花。但这篇论文证明:对于泛化能力,RL是必需的

这可能会改变未来VLA模型的训练范式:

  • SFT用于初始化
  • RL用于提升泛化

启示二:PPO仍然是强有力的基线

近年来,DPO、GRPO等新方法备受关注,很多人觉得PPO已经过时了。但这篇论文证明:对于VLA任务,PPO仍然是最佳选择

这提醒我们:不要盲目追新,要根据任务特点选择合适的方法

启示三:需要更好的泛化评估基准

现有的VLA评估大多关注成功率,很少系统性地测试泛化能力。这篇论文提出的三维度评估框架(视觉、语义、执行)为未来的研究提供了重要参考。

6.2 对工业界的影响

对于正在开发VLA产品的公司来说,这项研究提供了实用的指导:

产品层面

  • 不要只依赖SFT:如果你希望产品在真实环境中有好的表现,必须使用RL进行后训练
  • 投入资源建设RL基础设施:RL训练比SFT复杂得多,需要专门的工程团队
  • 重视奖励函数设计:好的奖励函数是成功的一半

战略层面

  • 数据策略调整:除了收集"人类演示数据",还需要构建RL训练环境
  • 评估标准更新:除了测试成功率,还需要系统性地测试泛化能力
  • 人才储备:需要既懂深度学习又懂强化学习的复合型人才

6.3 对未来的展望

这项研究也为未来的研究方向指明了道路:

方向一:视觉泛化仍需突破

RL对视觉泛化帮助有限,说明需要从其他角度解决这个问题:

  • 更好的视觉预训练(如使用更多样化的图像数据)
  • 域随机化(Domain Randomization)技术
  • 视觉-语言对齐的改进

方向二:更高效的RL算法

PPO虽然效果好,但计算成本也很高。未来的研究可以探索:

  • 样本效率更高的RL算法
  • 离线RL(Offline RL)方法,减少对在线交互的依赖
  • 模型预测控制(MPC)与RL的结合

方向三:跨任务迁移

目前的实验都是在一个任务上训练、同一个任务上测试。未来的研究可以探索:

  • 在一个任务上RL训练,能否泛化到不同但相关的任务?
  • 能否构建通用的VLA策略,适应多种任务?
  • 元学习(Meta Learning)与RL的结合

🌟 结语:从"应试"到"成才"

回到文章开头的问题:如何让AI从"死记硬背"进化到"举一反三"?

这项研究给出的答案是:强化学习

通过RL,VLA模型不再只是模仿人类的表面行为,而是真正学会了"理解"指令的含义,"适应"环境的变化,"解决"前所未有的问题。

这就像是从"应试高手"进化为"真正的人才"——不是只会做标准答案的题目,而是能够面对真实世界的复杂性,灵活应对各种挑战。

当然,RL不是银弹。它不能解决所有问题,尤其是视觉泛化方面的挑战。但它确实打开了一扇门,让我们看到了VLA模型潜力的新边界。

在这个AI快速发展的时代,我们需要的不是更好的"应试者",而是真正能"成才"的智能体。这项研究,正是朝着这个方向迈出的重要一步。


📚 参考文献

  1. Zhou, Y., Chen, Y., Li, X., et al. (2025). Can RL Improve Generalization of LLM Agents? An Empirical Study. arXiv preprint arXiv:2503.XXXXX.

  2. Schulman, J., Wolski, F., Dhariwal, P., et al. (2017). Proximal Policy Optimization Algorithms. arXiv preprint arXiv:1707.06347.

  3. Rafailov, R., Sharma, A., Mitchell, E., et al. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS 2023.

  4. Kim, G., Yu, J., Kim, S., et al. (2025). OpenVLA: An Open Vision-Language-Action Model. arXiv preprint.

  5. Ouyang, L., Wu, J., Jiang, X., et al. (2022). Training language models to follow instructions with human feedback. NeurIPS 2022.


标签: #论文解读 #费曼风格 #AI #强化学习 #泛化 #VLA #LLM

原文链接: https://arxiv.org/abs/2503.XXXXX

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录