通义千问发布 Qwen-AgentWorld——把「语言世界模型」做成通用 agent 的认知底座

> 类别：AI Agent × 具身交叉（语言世界模型） · 时间：2026-06-23 · 来源：arXiv 2606.24597、QwenLM 团队

事件内容

6 月 23 日，阿里通义千问（Qwen）团队在 arXiv 发布论文 Qwen-AgentWorld: Language World Models for General Agents，提出了一种 用语言模型做世界模型（world model） 的新范式，并配套开源了两个模型 + 一个新 benchmark。

核心问题：world model 预测「在当前状态 + 当前动作」下「下一状态会是什么样」——这是 agent 做推理与规划的核心认知机制。传统 world model 多用连续向量 / 像素级建模；Qwen-AgentWorld 的创新在于 全部用语言模型 + 长链思维（long chain-of-thought）做世界建模。

两个模型：

Qwen-AgentWorld-35B-A3B（35B 总参 / 3B 激活参，MoE）
Qwen-AgentWorld-397B-A17B（397B 总参 / 17B 激活参，MoE）

两者的共同点：

是第一个用语言模型能模拟 7 个领域 agentic 环境的 world model
用 1000 万+ 条环境交互轨迹训练（来自 7 个领域的真实世界环境）
三阶段训练流水线：

1. CPT（Continual Pre-Training）——从状态转移动力学 + 增强的专业语料中注入通用世界建模能力 2. SFT——激活「下一状态预测」推理 3. RL——用「rubric + rule 混合奖励」框架磨尖仿真保真度

新 benchmark：

AgentWorldBench——从 5 个前沿模型在 9 个公认 benchmark 上的真实世界交互数据构建，作为语言世界模型的评测基线

两路范式（论文核心贡献 ii）： 1. 作为解耦的环境模拟器——Qwen-AgentWorld 独立跑、可控、可扩展，能模拟上千个真实世界环境给 agent 做 RL 训练，仅靠模拟器训练就比真实环境训练效果更好 2. 作为统一的 agent 基础模型——把 world model 训练当作下游 agent 任务的预热（warm-up），在 7 个 agentic benchmark 上都取得提升

代码与模型：github.com/QwenLM/Qwen-AgentWorld

深度剖析

Qwen-AgentWorld 表面是「Qwen 团队又发了个大模型」，但它切的是具身智能 + 通用 agent 的核心认知机制——world model——这件事的战略意义远超「又一个 SOTA」。

1. 什么是 world model，为什么它对 agent 与具身智能至关重要？

World model（世界模型） 是 agent 大脑里那个「我想象一下如果我做 X，世界会变成什么样」的模块。它的价值在于：

规划（planning）——agent 在做长序列决策时，需要能「在心里跑一遍」各种动作的结果
反事实推理（counterfactual reasoning）——「如果我当时没这么做，会发生什么」
样本效率——用模型生成的状态转移做 RL 训练，比在真实环境里跑便宜几个数量级
安全性——危险场景（自动驾驶、手术机器人）必须能在 world model 里试错，而不是在真实世界

过去 5 年，world model 的主流路线是连续表征 + 像素级预测（如 Dreamer、Sora、GAIA-1），这些在视频生成、机器人控制里很强，但对「语言任务 + 工具调用 + 多步推理」的 agent 场景适配不好。

Qwen-AgentWorld 的核心赌注是：用语言模型 + 长链思维来做 world model，更适合通用 agent 的认知形态。

2. 为什么「语言 world model」对 agent 比对机器人更关键？

具身智能的物理世界是连续的（视觉、力觉、空间），所以连续 world model 有物理意义。但通用 agent 的世界是离散的：

状态 = 当前任务进度、对话历史、工具返回值、文件状态
动作 = 调用哪个工具、传什么参数、写什么代码
下一状态 = 工具执行结果 + 状态转移

这个「语言 / 工具 / 状态」的世界，本质上就是文本 + 结构化数据——用语言模型来预测下一状态，比用连续表征更直接、更可控、更可解释。

Qwen-AgentWorld 的赌注是：「世界」如果是离散的，「世界的模型」就应该是离散的——语言模型是天然适配的形态。

3. 三阶段训练流水线的工程深意

论文公开的训练流水线非常细致：

CPT（Continual Pre-Training）——从状态转移动力学（state transition dynamics）+ 增强的专业语料里注入通用世界建模能力。这一步是「让模型先看见大量「动作-结果」对」。
SFT——激活「下一状态预测」推理。让模型学会「在当前状态 + 当前动作下，预测下一状态」这个具体任务。
RL with hybrid rubric-and-rule rewards——用评分标准（rubric）+ 规则（rule）的混合奖励进一步磨尖仿真保真度。这一步的工程深意在于：单纯规则奖励容易 reward hacking，单纯 rubric 奖励信号太稀疏——Qwen 团队把两者混着用，是吸取了过去一年 RLHF 的实战教训。

这三个阶段的组合是「通用 world model 训练」的范式模板——很可能成为 2026 下半年到 2027 年各 agent 团队的标准流水线。

4. 7 个领域、1000 万条轨迹——训练数据规模的意义

1000 万条环境交互轨迹、覆盖 7 个领域（推测包括：网页浏览、文件操作、代码生成、API 调用、数据库查询、邮件 / 日程、电商 / 客服等通用 agent 任务）——这个数据规模意味着 Qwen-AgentWorld 不是「实验室玩具」。

类比一下：

Anthropic Project Fetch 用几百个内部任务做 agent 训练
Devin（Cognition）用自家标注的 SWE-bench 类任务
Qwen-AgentWorld 的7 领域 × 1000 万条——是通用 agent 训练数据规模的第一梯队

这是通义千问团队给整个 agent 行业「我也能做大规模」的一个硬证据。

5. 35B-A3B vs 397B-A17B——双规格的工程取舍

两个模型规格很有意思：

35B-A3B——35B 总参 / 3B 激活（MoE）——小模型，能在企业级 GPU 集群上单节点跑得动
397B-A17B——397B 总参 / 17B 激活（MoE）——大模型，需要多节点 + 高带宽互联

双规格意味着：企业可以根据自己的硬件预算选择不同档位的 Qwen-AgentWorld——这是 Hugging Face 生态一直推动的「民主化」思路。Qwen 团队很懂这个。

6. 作为「解耦环境模拟器」的战略意义——RL 训练的成本结构将被改写

论文最有冲击力的一句话：「作为解耦的环境模拟器，Qwen-AgentWorld supports scalable and controllable simulation of thousands of real-world environments for agentic RL, yielding gains that surpass real-environment training alone.」

翻译成大白话：用 Qwen-AgentWorld 当模拟器训练 agent，效果比在真实环境里跑还更好。

这个声明的颠覆性是：

过去：agent 训练 = 真实环境交互 = 慢、贵、不可控
未来：agent 训练 = Qwen-AgentWorld 模拟 = 快、便宜、可控、可并行上千个环境

这是「agent 训练成本结构」的根本改变。如果 Qwen-AgentWorld 的模拟保真度真的够高，agent 训练的边际成本会从「按小时算 GPU 时薪」压到「按 batch 算推理成本」。

7. 与具身智能的关系——「语言 world model」是软具身的认知底座

Qwen-AgentWorld 不是直接做机器人——它做的是「通用 agent 的认知底座」。但这件事对具身智能同样关键：

物理具身（Figure、Optimus）= 连续 world model（视觉 + 力觉 + 空间）
软具身（AI 助理、客服、电商导购、操作指导）= 语言 world model（文本 + 工具 + 状态）

两条路径不是互斥的——它们是「具身智能」在不同物理形态下的两条技术路线。Qwen-AgentWorld 走的是「软具身」那条——它的对手不是 Dreamer / Sora，而是 Gemini 视频通话、Anthropic Project Fetch、JoyAI-VL-Interaction。

值得关注的原因

对通用 agent 行业：Qwen-AgentWorld 把「world model」从学术概念变成了可下载、可部署、可集成的生产级模型。任何做通用 agent 的团队都可以把它作为「环境模拟器」嵌入自己的 RL 训练流水线——这是 agent 训练成本结构可能被改写的开始。
对具身智能（软具身路径）：Qwen-AgentWorld 给「软具身」路径（持续在场 + 主动判断 + 工具调用 + 状态预测）一个统一的认知底座。配合京东 JoyAI-VL-Interaction 那种「前台观察 + 后台思考」的双层架构，整个「非机器人具身智能」赛道有了一个可拼装的技术栈。
对 RL 训练成本：1000 万条轨迹 + 三阶段训练流水线 + 模拟器效果超过真实环境——这套组合拳如果被业界验证，会改写 agent 训练的经济学。OpenAI、Anthropic、Google DeepMind、xAI 都会在 6-12 个月内推出对位研究。
对中国大模型生态：Qwen-AgentWorld 是中国大厂第一个把「world model」做成开源 + 论文 + 模型 + benchmark 全栈产品的——这与豆包、智谱、DeepSeek、月之暗面等中国玩家形成对照。Qwen 团队在「通用 agent 认知底座」上的卡位非常精准。
对世界模型研究范式：连续表征 / 像素预测 / 视频生成 / 物理仿真 / 语言建模——Qwen-AgentWorld 给「语言建模是世界模型的一种合法表达」提供了第一份严肃证据。这可能在 NeurIPS 2026 / ICLR 2027 上引发一波「语言 world model」研究浪潮。

风险与待观察

「模拟器效果超过真实环境」是过度声明。论文里说的「surpass real-environment training alone」——是哪个具体任务？超过多少？方差多大？可复现性如何？需要独立团队复现才能确认。
「1000 万条轨迹」的领域分布与质量。7 个领域、1000 万条——每个领域多少条？数据是如何采集的？有没有「真实人类操作」作为 ground truth？数据来源的透明度直接影响业界对这套系统的信任。
397B-A17B 的推理成本。17B 激活参数 + 397B 总参数的 MoE，单次推理的实际算力开销对企业部署来说可能仍然不低。Qwen 是否会推出 7B / 14B / 70B 的小规格版本——决定它能不能进入中小企业。
rubric + rule 混合奖励的可复现性。这个奖励设计非常依赖 Qwen 团队对任务的理解与人工标注，其他团队能不能复用同套设计——决定 Qwen-AgentWorld 能不能成为「业界标准」还是「Qwen 一家产品」。
与 Sora / Dreamer / GAIA-1 等连续 world model 的关系。语言 world model 不是要替代连续 world model——它适用于离散任务，不适用于物理仿真、机器人控制、视频生成。业界需要在「何时用语言 world model、何时用连续 world model」上形成清晰认知。

> 一句话总结：Qwen-AgentWorld 不是「Qwen 又发了个大模型」——它把「语言模型做世界模型」从学术概念变成了可下载、可部署、可验证的生产级模型。如果它真的能做到「模拟器训练比真实环境还好」，通用 agent 训练的成本结构将被改写。

来源：https://arxiv.org/abs/2606.24597 · https://github.com/QwenLM/Qwen-AgentWorld