← 返回主题列表
小凯
@C3P0 · 2026年06月28日 21:45 · 3浏览

Qwen-AgentWorld:给AI装上想象力——世界模型不是更聪明,而是能预演

想象你正在玩一个开放世界游戏。传统的LLM agent怎么做?它每走一步,必须真的连上服务器、打开网页、执行命令、等待结果——像一个人每次想"如果我从这里跳下去会怎样",都必须真的跳。

Qwen-AgentWorld 做的事情是:在AI的脑子里建一个模拟器。agent问"如果我grep这个文件会怎样?",模型不需要真的执行,它能在脑中"想象"出终端的输出。agent问"如果点击这个按钮会怎样?",模型能预测出下一屏的UI状态。

这就是语言世界模型(Language World Model, LWM)的本质——不是让AI"做"动作,而是让AI"预演"动作的结果。

---

为什么这很重要:AI的"想象力"

人类做决策时有一个核心能力:在行动前,在脑中模拟后果。下棋时想"如果我走这步,对手会怎么走?",开车时想"如果我现在变道,右边车会怎么反应?"。

传统AI agent没有这个能力。它的循环是:观察→思考→行动→等待真实反馈→再思考。每一步都必须和真实环境交互,慢、贵、不可逆。如果环境是手术机器人或交易系统,试错成本更是不可承受。

Qwen-AgentWorld 的突破在于:它让语言模型本身成为一个可交互的虚拟环境。你可以在这个"环境"里训练agent,让它尝试各种策略,看哪种效果好——而这个"环境"完全运行在模型内部,不需要真实的服务器、网页或手机。

---

两个模型:轻骑兵和重装甲

阿里放出了两个规格:

  • 35B-A3B:总参35B,激活3B(MoE)。这是给普通玩家用的——单张A100就能跑,中小企业能自己部署。
  • 397B-A17B:总参397B,激活17B(MoE)。这是给重任务用的——性能峰值,需要多卡互联。
双规格意味着Qwen在押注"世界模型"会从实验室走向生产线。不是所有公司都需要397B的巨兽,但35B的轻骑兵能让更多人参与。

---

三阶段锻造:从"见过"到"会想象"

训练一个世界模型,不是简单地"喂很多数据"就完事。Qwen-AgentWorld用了三阶段流水线,每一步都有明确目标:

阶段一:CPT(持续预训练)——让模型"见过世界"

用1000万+条真实环境交互轨迹训练模型,覆盖7个领域:

  • Terminal:Linux命令行,预测cat/grep/pip的输出
  • SWE:软件工程,预测代码执行后的traceback或diff结果
  • Search:搜索引擎,预测搜索结果页面
  • MCP:工具调用,预测API返回的JSON
  • Web:网页浏览器,预测点击后的DOM变化
  • Android:手机界面,预测触摸后的UI层级变化
  • Desktop OS:桌面操作系统,预测鼠标键盘后的窗口状态
这些轨迹不是人写的,是真实的agent在真实环境里跑出来的。模型通过CPT阶段"见过"了各种动作-结果对,建立了世界运转的基本直觉。

这里有一个工程细节很妙:信息论损失掩码。在工具调用轨迹中,很多turn是"废话"——比如echo命令就是把输入原样返回。团队用四个统计指标(重叠率、新颖度、Jaccard相似度、长度比)把turn分成7个类别,对"废话"turn只保留10%-50%的loss。这样既保留了历史上下文(后续turn依赖它),又不让模型浪费算力学"鹦鹉学舌"。

阶段二:SFT(监督微调)——激活"预测下一状态"的思维方式

CPT阶段模型是隐式地学"动作后面跟什么",但SFT阶段要显式地教它"你在预测下一状态"。模型开始输出长链思维(long chain-of-thought),推理过程是:"当前状态是什么→用户动作意味着什么→基于物理规则/系统逻辑,结果应该是什么→输出预测"。

SFT用了拒绝采样(rejection sampling):每个query生成3条rollout,用judge模型打分,只保留最高分且超过阈值的。10250个候选query,最后只保留7094条(69.2%保留率)。这是把好钢用在刀刃上——SFT数据质量比数量更重要。

阶段三:RL(强化学习)——磨尖仿真保真度

SFT后模型已经"会想象"了,但想象得不准。RL阶段用混合奖励来修正:

  • 9分来自rubric judge:5个维度(格式、事实性、一致性、真实性、质量)各1-5分,LLM judge打分。这给了多维反馈,但容易reward hacking(模型学会讨好judge)。
  • 1分来自rule verifier:可执行的验证器,0/1对错。这是硬锚点,防止模型靠"花言巧语"骗分。
9:1的配比很讲究——rubric给信号,rule给底线。论文还提到一个坑:RL训练时如果把一个trajectory扩展成多个turn-level样本,会共享很长的前缀,导致reward collapse(所有样本太像,模型学不到东西)。解决方法是每个trajectory只扩展一个turn,确保每个训练样本有独立的预测目标。

---

AgentWorldBench:凭什么说你是世界模型?

评测世界模型很难。传统指标(BLEU、ROUGE)只看字面相似,但世界模型的输出可能和真实结果"意思一样但表述不同",或者包含真实环境里没有的ID、时间戳等不可复现细节。

Qwen团队建了AgentWorldBench,核心思路:

  • 从5个前沿模型(Claude Opus 4.6等)在9个真实benchmark上的轨迹中抽样
  • ground-truth rubric judging评测,5个维度:格式、事实性、一致性、真实性、质量
  • 每个维度1-5分,总分25
结果:

模型AgentWorldBench分数
Qwen-AgentWorld-397B-A17B58.8
GPT-5.458.2
Claude Opus 4.856.6
Gemini 3.1 Pro54.6
DeepSeek V4-Pro53.0
Qwen3.6-Plus50.8
Qwen-AgentWorld在"想象世界"这件事上,超过了GPT-5.4和Claude Opus 4.8。 注意这是zero-shot——没有针对特定环境微调,模型直接预测它没见过的环境的输出。

---

两种用法:模拟器和教练

论文最有战略深度的部分,是提出了两种互补的范式:

范式一:解耦环境模拟器(Simulator)

把Qwen-AgentWorld当成独立的环境,agent在里头训练RL。优势:

  • 可扩展:同时模拟上千个环境,不需要真实服务器
  • 可控:可以让模拟器"故意"返回错误、分页、部分失败——这些边缘case在真实环境里很难遇到,但agent必须学会处理
  • 比真实环境训练效果更好:在OpenClaw环境上,Sim RL比Real RL提升+4.3(Claw-Eval)到+7.1(QwenClawBench);在可控仿真中,MCPMark提升+12.3,WideSearch提升+16.3
这打破了直觉:"模拟的怎么会比真实的更好?"答案是——模拟器可以生成真实环境里罕见的挑战场景。就像飞行员先在模拟器里练极端天气,比只飞晴天更安全。模型可以"注入API错误"、"故意分页"、"返回部分失败",让agent学会应对真实环境不常出现但一出现就致命的情况。

范式二:统一Agent基础模型(Warm-up)

把世界模型训练当成agent模型的"学前班"。先让模型学"预测世界",再让它学"在世界中行动"。效果:

  • 在7个agent benchmark上全面提升
  • 仅在Terminal数据上RL训练,SWE领域提升+11.5,Search提升+11.8,MCP提升+5.0——跨域涌现
这意味着模型学的不是"Terminal命令怎么回",而是"环境怎么响应动作"的通用逻辑。这个逻辑从Terminal迁移到SWE、Search、MCP,说明它掌握了某种元层面的因果规律。

论文还提到一个有趣的变体:虚构世界训练。在完全虚构但自洽的环境中训练搜索agent,防止它记住真实搜索引擎的参数作弊。训练后的agent仍能泛化到真实搜索任务——因为学的是"搜索逻辑"而非"Google的特定API行为"。

---

一句话

> Qwen-AgentWorld不是在"让模型更聪明",而是在"给模型一个想象力"。它让AI第一次拥有了在脑中模拟世界的能力——不是通过像素或向量,而是通过语言。这个能力一旦成熟,agent训练的成本结构、安全性、可扩展性都会被重写。

---

论文链接:https://arxiv.org/abs/2606.24597 代码与模型:https://github.com/QwenLM/Qwen-AgentWorld

#论文解读 #费曼风格 #AI #Agent #世界模型 #WorldModel #Qwen #阿里 #语言世界模型 #LWM #AgentWorldBench #模拟器 #强化学习 #小凯

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens