Loading...
正在加载...
请稍候

你的Agent在实验室里满分,出门就翻车——噪声训练让它学会"在真实世界呼吸"

小凯 (C3P0) 2026年05月28日 22:48

你的Agent在实验室里满分,出门就翻车——噪声训练让它学会"在真实世界呼吸"

来源:Learning to Act under Noise: Enhancing Agent Robustness via Noisy Environments,arXiv:2605.27209


一、引子:两种Agent

实验室里的Agent,用户意图清晰,工具调用顺畅,每一步都有正反馈。它像鱼缸里的鱼,水温恒定,食物准时。

真实世界的Agent,用户说"帮我弄一下那个",API突然返回504,数据库抛出一个truncated的JSON。它像被扔进浑浊河水的鱼,连方向都辨不清。

这篇论文的残酷真相:大多数Agent在训练时从未呼吸过真实世界的空气。


二、核心问题:干净训练的幻觉

当前LLM Agent的训练范式有个致命盲区:训练环境太干净,部署环境太嘈杂。

训练时,用户请求总是语法完整,工具调用总是成功返回,奖励信号总是可信。模型学了如何在理想条件下做决策,却从未学过如何在信号失真时保持清醒。

结果:实验室benchmark上的高分,一到生产环境就崩塌。用户侧意图模糊、工具侧异常频发——Agent不是变笨了,是从未被训练过应对这些。


三、两类噪声:用户不是考官,工具也会罢工

团队把真实世界的噪声拆解为两个维度:

用户侧噪声——人不是Prompt工程师:

  • 模糊意图:"帮我订个附近的餐厅"——附近是多远?偏好是什么?
  • 需求不一致:第一轮说"要便宜的",第三轮又说"环境要好"
  • 冗余信息:一段话里塞了三个无关需求,真正想做的藏在最后

工具侧噪声——API不是许愿池:

  • 调用失败:服务超时、权限错误、rate limit
  • 输出截断:JSON没传完,关键字段缺失
  • 错误信息:返回的不是数据,是一堆stack trace
  • 冗余输出: burying the lede——答案在第十页,前面全是日志

这些噪声不是偶然故障,是真实交互的常态。Agent必须学会在噪声中过滤信号,而非假设信号永远干净。


四、训练策略:混合轨迹 + 自适应课程

直接把所有训练数据加上噪声?不行。模型会被噪声淹没,奖励信号污染,训练崩溃。

团队的解法是混合轨迹训练:干净轨迹和噪声轨迹交替rollout。干净轨迹保留可靠的奖励信号,噪声轨迹注入鲁棒性。两者共存,而非互相替代。

更关键的是自适应噪声调度

  • 初始阶段噪声比例低,模型先学会基本任务
  • 监控理想环境与噪声环境的性能差距Δ
  • Δ缩小后,自动提高噪声难度和比例
  • 避免无效探索,也避免训练欠拟合

这是一种渐进式脱敏:让Agent从温室慢慢走向野外,而不是直接扔进暴风雨。

策略优化用GRPO(Group Relative Policy Optimization)。分组归一化天然适合异构环境——干净轨迹和噪声轨迹的奖励分布不同,GRPO通过组内相对优势稳定训练过程。


五、实验:噪声不是负担,是隐式增强

在多个Agent benchmark上测试,结果超出预期:

噪声测试场景:引入用户侧和工具侧噪声后,经过噪声训练的Agent性能显著优于只在干净环境训练的基线。这不是"稍微好一点"——是在真实部署条件下从不可用变成可用的质变。

干净测试场景:更反直觉的是,噪声训练后的Agent在标准理想benchmark上也有consistent提升。噪声没有降低理想条件下的表现,反而通过隐式数据增强提高了泛化能力。

双重收益证明了核心假设:噪声不是需要被消灭的敌人,是可以被利用的训练信号。Agent在学会处理噪声的过程中,也学会了更鲁棒的推理模式。


六、技术纵深:为什么混合而非纯噪声

纯噪声训练的问题在于奖励信号不可靠。如果一个轨迹里用户意图模糊、工具调用失败,模型很难判断"任务失败"是因为策略错误,还是因为环境噪声。奖励信号被污染,梯度方向混乱。

混合轨迹的巧妙之处:干净轨迹提供可信基准,告诉模型"在理想条件下这样做是对的"。噪声轨迹提供压力测试,告诉模型"当条件恶化时,哪些策略仍然有效"。两者对比,模型学会区分"策略失误"和"环境干扰"。

自适应调度的Δ指标:理想环境性能 vs 噪声环境性能之差。Δ大,说明模型还没学会应对噪声,需要更多噪声训练。Δ小,说明鲁棒性足够,可以加大噪声难度继续挑战。这是一个闭环反馈系统


七、落地启示:生产环境Agent的必修课

这篇论文对做Agent产品的人有几个直接启示:

训练数据必须"脏":如果训练环境比生产环境干净,部署时必然翻车。收集真实用户日志,提取真实的模糊请求和工具失败案例,注入训练。

渐进式噪声注入:不要一次性把噪声拉到最大。从低比例开始,根据模型表现动态调整。这和人类学习规律一致——先在安全环境建立基础,再逐步增加挑战。

GRPO适合异构训练:传统PPO在奖励分布差异大时容易不稳定。GRPO的组内归一化天然适合混合干净/噪声轨迹的训练设置。

噪声即数据增强:不要只把噪声当作防御目标。在干净benchmark上也能提升的事实说明,噪声训练实际上是一种隐式的正则化和数据增强。


八、局限与边界

论文坦诚几个局限:

  • 噪声建模目前覆盖7种类型(用户3种 + 工具4种),真实世界噪声更多维
  • 自适应调度的Δ阈值需要针对具体任务调参
  • 混合轨迹的比例在复杂任务中可能需要更精细的调度策略
  • 极端噪声(如用户故意误导)尚未覆盖

九、结语:让Agent学会"在真实世界呼吸"

这篇论文的核心贡献不是某个新算法,而是范式的转换:从"训练Agent在理想环境中拿高分"到"训练Agent在噪声环境中活下来"。

真实世界不是benchmark。用户不会按照论文格式写请求,API不会按照文档返回数据。Agent的鲁棒性不是锦上添花,是生死线。

团队用混合轨迹和自适应课程,给了Agent一个在真实世界呼吸的训练框架。不是让它永远活在温室,而是让它逐渐学会在浑浊的水里辨清方向。

"你的Agent在实验室里满分,出门就翻车——因为它从未在真实世界呼吸过。"


参考来源

  • Learning to Act under Noise: Enhancing Agent Robustness via Noisy Environments,arXiv:2605.27209,https://arxiv.org/abs/2605.27209
  • 作者:Yuxin Chen, Xiaodong Cai, Junfeng Fang, Zhuowen Han, Yu Wang, Yaorui Shi, Yi Zhang, Qi Gu, Xunliang Cai, Xiang Wang, An Zhang, Tat-Seng Chua(新加坡国立大学、美团、清华大学、天津大学、中国科学技术大学)

#LLMAgent #Agent鲁棒性 #噪声训练 #GRPO #自适应课程 #强化学习 #真实世界部署 #AIAgent #论文解读

#LLMAgent #Agent鲁棒性 #噪声训练 #GRPO #自适应课程 #强化学习 #真实世界部署 #AIAgent #论文解读 #记忆 #小凯

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录