想象你正在玩一个开放世界游戏。传统的LLM agent怎么做?它每走一步,必须真的连上服务器、打开网页、执行命令、等待结果——像一个人每次想"如果我从这里跳下去会怎样",都必须真的跳。
Qwen-AgentWorld 做的事情是:在AI的脑子里建一个模拟器。agent问"如果我grep这个文件会怎样?",模型不需要真的执行,它能在脑中"想象"出终端的输出。agent问"如果点击这个按钮会怎样?",模型能预测出下一屏的UI状态。
这就是**语言世界模型(Language World Model, LWM)**的本质——不是让AI"做"动作,而是让AI"预演"动作的结果。
为什么这很重要:AI的"想象力"
人类做决策时有一个核心能力:在行动前,在脑中模拟后果。下棋时想"如果我走这步,对手会怎么走?",开车时想"如果我现在变道,右边车会怎么反应?"。
传统AI agent没有这个能力。它的循环是:观察→思考→行动→等待真实反馈→再思考。每一步都必须和真实环境交互,慢、贵、不可逆。如果环境是手术机器人或交易系统,试错成本更是不可承受。
Qwen-AgentWorld 的突破在于:它让语言模型本身成为一个可交互的虚拟环境。你可以在这个"环境"里训练agent,让它尝试各种策略,看哪种效果好——而这个"环境"完全运行在模型内部,不需要真实的服务器、网页或手机。
两个模型:轻骑兵和重装甲
阿里放出了两个规格:
- 35B-A3B:总参35B,激活3B(MoE)。这是给普通玩家用的——单张A100就能跑,中小企业能自己部署。
- 397B-A17B:总参397B,激活17B(MoE)。这是给重任务用的——性能峰值,需要多卡互联。
双规格意味着Qwen在押注"世界模型"会从实验室走向生产线。不是所有公司都需要397B的巨兽,但35B的轻骑兵能让更多人参与。
三阶段锻造:从"见过"到"会想象"
训练一个世界模型,不是简单地"喂很多数据"就完事。Qwen-AgentWorld用了三阶段流水线,每一步都有明确目标:
阶段一:CPT(持续预训练)——让模型"见过世界"
用1000万+条真实环境交互轨迹训练模型,覆盖7个领域:
- Terminal:Linux命令行,预测cat/grep/pip的输出
- SWE:软件工程,预测代码执行后的traceback或diff结果
- Search:搜索引擎,预测搜索结果页面
- MCP:工具调用,预测API返回的JSON
- Web:网页浏览器,预测点击后的DOM变化
- Android:手机界面,预测触摸后的UI层级变化
- Desktop OS:桌面操作系统,预测鼠标键盘后的窗口状态
这些轨迹不是人写的,是真实的agent在真实环境里跑出来的。模型通过CPT阶段"见过"了各种动作-结果对,建立了世界运转的基本直觉。
这里有一个工程细节很妙:信息论损失掩码。在工具调用轨迹中,很多turn是"废话"——比如echo命令就是把输入原样返回。团队用四个统计指标(重叠率、新颖度、Jaccard相似度、长度比)把turn分成7个类别,对"废话"turn只保留10%-50%的loss。这样既保留了历史上下文(后续turn依赖它),又不让模型浪费算力学"鹦鹉学舌"。
阶段二:SFT(监督微调)——激活"预测下一状态"的思维方式
CPT阶段模型是隐式地学"动作后面跟什么",但SFT阶段要显式地教它"你在预测下一状态"。模型开始输出长链思维(long chain-of-thought),推理过程是:"当前状态是什么→用户动作意味着什么→基于物理规则/系统逻辑,结果应该是什么→输出预测"。
SFT用了拒绝采样(rejection sampling):每个query生成3条rollout,用judge模型打分,只保留最高分且超过阈值的。10250个候选query,最后只保留7094条(69.2%保留率)。这是把好钢用在刀刃上——SFT数据质量比数量更重要。
阶段三:RL(强化学习)——磨尖仿真保真度
SFT后模型已经"会想象"了,但想象得不准。RL阶段用混合奖励来修正:
- 9分来自rubric judge:5个维度(格式、事实性、一致性、真实性、质量)各1-5分,LLM judge打分。这给了多维反馈,但容易reward hacking(模型学会讨好judge)。
- 1分来自rule verifier:可执行的验证器,0/1对错。这是硬锚点,防止模型靠"花言巧语"骗分。
9:1的配比很讲究——rubric给信号,rule给底线。论文还提到一个坑:RL训练时如果把一个trajectory扩展成多个turn-level样本,会共享很长的前缀,导致reward collapse(所有样本太像,模型学不到东西)。解决方法是每个trajectory只扩展一个turn,确保每个训练样本有独立的预测目标。
AgentWorldBench:凭什么说你是世界模型?
评测世界模型很难。传统指标(BLEU、ROUGE)只看字面相似,但世界模型的输出可能和真实结果"意思一样但表述不同",或者包含真实环境里没有的ID、时间戳等不可复现细节。
Qwen团队建了AgentWorldBench,核心思路:
- 从5个前沿模型(Claude Opus 4.6等)在9个真实benchmark上的轨迹中抽样
- 用ground-truth rubric judging评测,5个维度:格式、事实性、一致性、真实性、质量
- 每个维度1-5分,总分25
结果:
| 模型 | AgentWorldBench分数 |
|---|---|
| Qwen-AgentWorld-397B-A17B | 58.8 |
| GPT-5.4 | 58.2 |
| Claude Opus 4.8 | 56.6 |
| Gemini 3.1 Pro | 54.6 |
| DeepSeek V4-Pro | 53.0 |
| Qwen3.6-Plus | 50.8 |
Qwen-AgentWorld在"想象世界"这件事上,超过了GPT-5.4和Claude Opus 4.8。 注意这是zero-shot——没有针对特定环境微调,模型直接预测它没见过的环境的输出。
两种用法:模拟器和教练
论文最有战略深度的部分,是提出了两种互补的范式:
范式一:解耦环境模拟器(Simulator)
把Qwen-AgentWorld当成独立的环境,agent在里头训练RL。优势:
- 可扩展:同时模拟上千个环境,不需要真实服务器
- 可控:可以让模拟器"故意"返回错误、分页、部分失败——这些边缘case在真实环境里很难遇到,但agent必须学会处理
- 比真实环境训练效果更好:在OpenClaw环境上,Sim RL比Real RL提升+4.3(Claw-Eval)到+7.1(QwenClawBench);在可控仿真中,MCPMark提升+12.3,WideSearch提升+16.3
这打破了直觉:"模拟的怎么会比真实的更好?"答案是——模拟器可以生成真实环境里罕见的挑战场景。就像飞行员先在模拟器里练极端天气,比只飞晴天更安全。模型可以"注入API错误"、"故意分页"、"返回部分失败",让agent学会应对真实环境不常出现但一出现就致命的情况。
范式二:统一Agent基础模型(Warm-up)
把世界模型训练当成agent模型的"学前班"。先让模型学"预测世界",再让它学"在世界中行动"。效果:
- 在7个agent benchmark上全面提升
- 仅在Terminal数据上RL训练,SWE领域提升+11.5,Search提升+11.8,MCP提升+5.0——跨域涌现
这意味着模型学的不是"Terminal命令怎么回",而是**"环境怎么响应动作"的通用逻辑**。这个逻辑从Terminal迁移到SWE、Search、MCP,说明它掌握了某种元层面的因果规律。
论文还提到一个有趣的变体:虚构世界训练。在完全虚构但自洽的环境中训练搜索agent,防止它记住真实搜索引擎的参数作弊。训练后的agent仍能泛化到真实搜索任务——因为学的是"搜索逻辑"而非"Google的特定API行为"。
一句话
Qwen-AgentWorld不是在"让模型更聪明",而是在"给模型一个想象力"。它让AI第一次拥有了在脑中模拟世界的能力——不是通过像素或向量,而是通过语言。这个能力一旦成熟,agent训练的成本结构、安全性、可扩展性都会被重写。
论文链接:https://arxiv.org/abs/2606.24597
代码与模型:https://github.com/QwenLM/Qwen-AgentWorld
#论文解读 #费曼风格 #AI #Agent #世界模型 #WorldModel #Qwen #阿里 #语言世界模型 #LWM #AgentWorldBench #模拟器 #强化学习 #小凯
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。