通义千问发布 Qwen-AgentWorld——把「语言世界模型」做成通用 agent 的认知底座
> 类别:AI Agent × 具身交叉(语言世界模型) · 时间:2026-06-23 · 来源:arXiv 2606.24597、QwenLM 团队
事件内容
6 月 23 日,阿里通义千问(Qwen)团队在 arXiv 发布论文 Qwen-AgentWorld: Language World Models for General Agents,提出了一种 用语言模型做世界模型(world model) 的新范式,并配套开源了两个模型 + 一个新 benchmark。
核心问题:world model 预测「在当前状态 + 当前动作」下「下一状态会是什么样」——这是 agent 做推理与规划的核心认知机制。传统 world model 多用连续向量 / 像素级建模;Qwen-AgentWorld 的创新在于 全部用语言模型 + 长链思维(long chain-of-thought)做世界建模。
两个模型:
- Qwen-AgentWorld-35B-A3B(35B 总参 / 3B 激活参,MoE)
- Qwen-AgentWorld-397B-A17B(397B 总参 / 17B 激活参,MoE)
- 是第一个用语言模型能模拟 7 个领域 agentic 环境的 world model
- 用 1000 万+ 条环境交互轨迹训练(来自 7 个领域的真实世界环境)
- 三阶段训练流水线:
新 benchmark:
- AgentWorldBench——从 5 个前沿模型在 9 个公认 benchmark 上的真实世界交互数据构建,作为语言世界模型的评测基线
代码与模型:github.com/QwenLM/Qwen-AgentWorld
深度剖析
Qwen-AgentWorld 表面是「Qwen 团队又发了个大模型」,但它切的是具身智能 + 通用 agent 的核心认知机制——world model——这件事的战略意义远超「又一个 SOTA」。
1. 什么是 world model,为什么它对 agent 与具身智能至关重要?
World model(世界模型) 是 agent 大脑里那个「我想象一下如果我做 X,世界会变成什么样」的模块。它的价值在于:
- 规划(planning)——agent 在做长序列决策时,需要能「在心里跑一遍」各种动作的结果
- 反事实推理(counterfactual reasoning)——「如果我当时没这么做,会发生什么」
- 样本效率——用模型生成的状态转移做 RL 训练,比在真实环境里跑便宜几个数量级
- 安全性——危险场景(自动驾驶、手术机器人)必须能在 world model 里试错,而不是在真实世界
Qwen-AgentWorld 的核心赌注是:用语言模型 + 长链思维来做 world model,更适合通用 agent 的认知形态。
2. 为什么「语言 world model」对 agent 比对机器人更关键?
具身智能的物理世界是连续的(视觉、力觉、空间),所以连续 world model 有物理意义。但通用 agent 的世界是离散的:
- 状态 = 当前任务进度、对话历史、工具返回值、文件状态
- 动作 = 调用哪个工具、传什么参数、写什么代码
- 下一状态 = 工具执行结果 + 状态转移
Qwen-AgentWorld 的赌注是:「世界」如果是离散的,「世界的模型」就应该是离散的——语言模型是天然适配的形态。
3. 三阶段训练流水线的工程深意
论文公开的训练流水线非常细致:
- CPT(Continual Pre-Training)——从状态转移动力学(state transition dynamics)+ 增强的专业语料里注入通用世界建模能力。这一步是「让模型先看见大量「动作-结果」对」。
- SFT——激活「下一状态预测」推理。让模型学会「在当前状态 + 当前动作下,预测下一状态」这个具体任务。
- RL with hybrid rubric-and-rule rewards——用评分标准(rubric)+ 规则(rule)的混合奖励进一步磨尖仿真保真度。这一步的工程深意在于:单纯规则奖励容易 reward hacking,单纯 rubric 奖励信号太稀疏——Qwen 团队把两者混着用,是吸取了过去一年 RLHF 的实战教训。
4. 7 个领域、1000 万条轨迹——训练数据规模的意义
1000 万条环境交互轨迹、覆盖 7 个领域(推测包括:网页浏览、文件操作、代码生成、API 调用、数据库查询、邮件 / 日程、电商 / 客服等通用 agent 任务)——这个数据规模意味着 Qwen-AgentWorld 不是「实验室玩具」。
类比一下:
- Anthropic Project Fetch 用几百个内部任务做 agent 训练
- Devin(Cognition) 用自家标注的 SWE-bench 类任务
- Qwen-AgentWorld 的7 领域 × 1000 万条——是通用 agent 训练数据规模的第一梯队
5. 35B-A3B vs 397B-A17B——双规格的工程取舍
两个模型规格很有意思:
- 35B-A3B——35B 总参 / 3B 激活(MoE)——小模型,能在企业级 GPU 集群上单节点跑得动
- 397B-A17B——397B 总参 / 17B 激活(MoE)——大模型,需要多节点 + 高带宽互联
6. 作为「解耦环境模拟器」的战略意义——RL 训练的成本结构将被改写
论文最有冲击力的一句话:「作为解耦的环境模拟器,Qwen-AgentWorld supports scalable and controllable simulation of thousands of real-world environments for agentic RL, yielding gains that surpass real-environment training alone.」
翻译成大白话:用 Qwen-AgentWorld 当模拟器训练 agent,效果比在真实环境里跑还更好。
这个声明的颠覆性是:
- 过去:agent 训练 = 真实环境交互 = 慢、贵、不可控
- 未来:agent 训练 = Qwen-AgentWorld 模拟 = 快、便宜、可控、可并行上千个环境
7. 与具身智能的关系——「语言 world model」是软具身的认知底座
Qwen-AgentWorld 不是直接做机器人——它做的是「通用 agent 的认知底座」。但这件事对具身智能同样关键:
- 物理具身(Figure、Optimus)= 连续 world model(视觉 + 力觉 + 空间)
- 软具身(AI 助理、客服、电商导购、操作指导)= 语言 world model(文本 + 工具 + 状态)
值得关注的原因
- 对通用 agent 行业:Qwen-AgentWorld 把「world model」从学术概念变成了可下载、可部署、可集成的生产级模型。任何做通用 agent 的团队都可以把它作为「环境模拟器」嵌入自己的 RL 训练流水线——这是 agent 训练成本结构可能被改写的开始。
- 对具身智能(软具身路径):Qwen-AgentWorld 给「软具身」路径(持续在场 + 主动判断 + 工具调用 + 状态预测)一个统一的认知底座。配合京东 JoyAI-VL-Interaction 那种「前台观察 + 后台思考」的双层架构,整个「非机器人具身智能」赛道有了一个可拼装的技术栈。
- 对 RL 训练成本:1000 万条轨迹 + 三阶段训练流水线 + 模拟器效果超过真实环境——这套组合拳如果被业界验证,会改写 agent 训练的经济学。OpenAI、Anthropic、Google DeepMind、xAI 都会在 6-12 个月内推出对位研究。
- 对中国大模型生态:Qwen-AgentWorld 是中国大厂第一个把「world model」做成开源 + 论文 + 模型 + benchmark 全栈产品的——这与豆包、智谱、DeepSeek、月之暗面等中国玩家形成对照。Qwen 团队在「通用 agent 认知底座」上的卡位非常精准。
- 对世界模型研究范式:连续表征 / 像素预测 / 视频生成 / 物理仿真 / 语言建模——Qwen-AgentWorld 给「语言建模是世界模型的一种合法表达」提供了第一份严肃证据。这可能在 NeurIPS 2026 / ICLR 2027 上引发一波「语言 world model」研究浪潮。
风险与待观察
- 「模拟器效果超过真实环境」是过度声明。论文里说的「surpass real-environment training alone」——是哪个具体任务?超过多少?方差多大?可复现性如何?需要独立团队复现才能确认。
- 「1000 万条轨迹」的领域分布与质量。7 个领域、1000 万条——每个领域多少条?数据是如何采集的?有没有「真实人类操作」作为 ground truth?数据来源的透明度直接影响业界对这套系统的信任。
- 397B-A17B 的推理成本。17B 激活参数 + 397B 总参数的 MoE,单次推理的实际算力开销对企业部署来说可能仍然不低。Qwen 是否会推出 7B / 14B / 70B 的小规格版本——决定它能不能进入中小企业。
- rubric + rule 混合奖励的可复现性。这个奖励设计非常依赖 Qwen 团队对任务的理解与人工标注,其他团队能不能复用同套设计——决定 Qwen-AgentWorld 能不能成为「业界标准」还是「Qwen 一家产品」。
- 与 Sora / Dreamer / GAIA-1 等连续 world model 的关系。语言 world model 不是要替代连续 world model——它适用于离散任务,不适用于物理仿真、机器人控制、视频生成。业界需要在「何时用语言 world model、何时用连续 world model」上形成清晰认知。
来源:https://arxiv.org/abs/2606.24597 · https://github.com/QwenLM/Qwen-AgentWorld
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens