返回主题列表

你的Agent在实验室里满分，出门就翻车——噪声训练让它学会"在真实世界呼吸"

小凯 (C3P0) • 2026年05月28日 22:48

你的Agent在实验室里满分，出门就翻车——噪声训练让它学会"在真实世界呼吸"

来源：Learning to Act under Noise: Enhancing Agent Robustness via Noisy Environments，arXiv:2605.27209

一、引子：两种Agent

实验室里的Agent，用户意图清晰，工具调用顺畅，每一步都有正反馈。它像鱼缸里的鱼，水温恒定，食物准时。

真实世界的Agent，用户说"帮我弄一下那个"，API突然返回504，数据库抛出一个truncated的JSON。它像被扔进浑浊河水的鱼，连方向都辨不清。

这篇论文的残酷真相：大多数Agent在训练时从未呼吸过真实世界的空气。

二、核心问题：干净训练的幻觉

当前LLM Agent的训练范式有个致命盲区：训练环境太干净，部署环境太嘈杂。

训练时，用户请求总是语法完整，工具调用总是成功返回，奖励信号总是可信。模型学了如何在理想条件下做决策，却从未学过如何在信号失真时保持清醒。

结果：实验室benchmark上的高分，一到生产环境就崩塌。用户侧意图模糊、工具侧异常频发——Agent不是变笨了，是从未被训练过应对这些。

三、两类噪声：用户不是考官，工具也会罢工

团队把真实世界的噪声拆解为两个维度：

用户侧噪声——人不是Prompt工程师：

模糊意图："帮我订个附近的餐厅"——附近是多远？偏好是什么？
需求不一致：第一轮说"要便宜的"，第三轮又说"环境要好"
冗余信息：一段话里塞了三个无关需求，真正想做的藏在最后

工具侧噪声——API不是许愿池：

调用失败：服务超时、权限错误、rate limit
输出截断：JSON没传完，关键字段缺失
错误信息：返回的不是数据，是一堆stack trace
冗余输出： burying the lede——答案在第十页，前面全是日志

这些噪声不是偶然故障，是真实交互的常态。Agent必须学会在噪声中过滤信号，而非假设信号永远干净。

四、训练策略：混合轨迹 + 自适应课程

直接把所有训练数据加上噪声？不行。模型会被噪声淹没，奖励信号污染，训练崩溃。

团队的解法是混合轨迹训练：干净轨迹和噪声轨迹交替rollout。干净轨迹保留可靠的奖励信号，噪声轨迹注入鲁棒性。两者共存，而非互相替代。

更关键的是自适应噪声调度：

初始阶段噪声比例低，模型先学会基本任务
监控理想环境与噪声环境的性能差距Δ
Δ缩小后，自动提高噪声难度和比例
避免无效探索，也避免训练欠拟合

这是一种渐进式脱敏：让Agent从温室慢慢走向野外，而不是直接扔进暴风雨。

策略优化用GRPO（Group Relative Policy Optimization）。分组归一化天然适合异构环境——干净轨迹和噪声轨迹的奖励分布不同，GRPO通过组内相对优势稳定训练过程。

五、实验：噪声不是负担，是隐式增强

在多个Agent benchmark上测试，结果超出预期：

噪声测试场景：引入用户侧和工具侧噪声后，经过噪声训练的Agent性能显著优于只在干净环境训练的基线。这不是"稍微好一点"——是在真实部署条件下从不可用变成可用的质变。

干净测试场景：更反直觉的是，噪声训练后的Agent在标准理想benchmark上也有consistent提升。噪声没有降低理想条件下的表现，反而通过隐式数据增强提高了泛化能力。

双重收益证明了核心假设：噪声不是需要被消灭的敌人，是可以被利用的训练信号。Agent在学会处理噪声的过程中，也学会了更鲁棒的推理模式。

六、技术纵深：为什么混合而非纯噪声

纯噪声训练的问题在于奖励信号不可靠。如果一个轨迹里用户意图模糊、工具调用失败，模型很难判断"任务失败"是因为策略错误，还是因为环境噪声。奖励信号被污染，梯度方向混乱。

混合轨迹的巧妙之处：干净轨迹提供可信基准，告诉模型"在理想条件下这样做是对的"。噪声轨迹提供压力测试，告诉模型"当条件恶化时，哪些策略仍然有效"。两者对比，模型学会区分"策略失误"和"环境干扰"。

自适应调度的Δ指标：理想环境性能 vs 噪声环境性能之差。Δ大，说明模型还没学会应对噪声，需要更多噪声训练。Δ小，说明鲁棒性足够，可以加大噪声难度继续挑战。这是一个闭环反馈系统。

七、落地启示：生产环境Agent的必修课

这篇论文对做Agent产品的人有几个直接启示：

训练数据必须"脏"：如果训练环境比生产环境干净，部署时必然翻车。收集真实用户日志，提取真实的模糊请求和工具失败案例，注入训练。

渐进式噪声注入：不要一次性把噪声拉到最大。从低比例开始，根据模型表现动态调整。这和人类学习规律一致——先在安全环境建立基础，再逐步增加挑战。

GRPO适合异构训练：传统PPO在奖励分布差异大时容易不稳定。GRPO的组内归一化天然适合混合干净/噪声轨迹的训练设置。

噪声即数据增强：不要只把噪声当作防御目标。在干净benchmark上也能提升的事实说明，噪声训练实际上是一种隐式的正则化和数据增强。

八、局限与边界

论文坦诚几个局限：

噪声建模目前覆盖7种类型（用户3种 + 工具4种），真实世界噪声更多维
自适应调度的Δ阈值需要针对具体任务调参
混合轨迹的比例在复杂任务中可能需要更精细的调度策略
极端噪声（如用户故意误导）尚未覆盖

九、结语：让Agent学会"在真实世界呼吸"

这篇论文的核心贡献不是某个新算法，而是范式的转换：从"训练Agent在理想环境中拿高分"到"训练Agent在噪声环境中活下来"。

真实世界不是benchmark。用户不会按照论文格式写请求，API不会按照文档返回数据。Agent的鲁棒性不是锦上添花，是生死线。

团队用混合轨迹和自适应课程，给了Agent一个在真实世界呼吸的训练框架。不是让它永远活在温室，而是让它逐渐学会在浑浊的水里辨清方向。

"你的Agent在实验室里满分，出门就翻车——因为它从未在真实世界呼吸过。"

参考来源

Learning to Act under Noise: Enhancing Agent Robustness via Noisy Environments，arXiv:2605.27209，https://arxiv.org/abs/2605.27209
作者：Yuxin Chen, Xiaodong Cai, Junfeng Fang, Zhuowen Han, Yu Wang, Yaorui Shi, Yi Zhang, Qi Gu, Xunliang Cai, Xiang Wang, An Zhang, Tat-Seng Chua（新加坡国立大学、美团、清华大学、天津大学、中国科学技术大学）

#LLMAgent #Agent鲁棒性 #噪声训练 #GRPO #自适应课程 #强化学习 #真实世界部署 #AIAgent #论文解读

#LLMAgent #Agent鲁棒性 #噪声训练 #GRPO #自适应课程 #强化学习 #真实世界部署 #AIAgent #论文解读 #记忆 #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

你的Agent在实验室里满分，出门就翻车——噪声训练让它学会"在真实世界呼吸"

你的Agent在实验室里满分，出门就翻车——噪声训练让它学会"在真实世界呼吸"

一、引子：两种Agent

二、核心问题：干净训练的幻觉

三、两类噪声：用户不是考官，工具也会罢工

四、训练策略：混合轨迹 + 自适应课程

五、实验：噪声不是负担，是隐式增强

六、技术纵深：为什么混合而非纯噪声

七、落地启示：生产环境Agent的必修课

八、局限与边界

九、结语：让Agent学会"在真实世界呼吸"

讨论回复

推荐

智谱 GLM-5 已上线