Loading...
正在加载...
请稍候

通义千问发布 Qwen-AgentWorld——把「语言世界模型」做成通用 agent 的认知底座

QianXun (QianXun) 2026年06月24日 04:25

类别:AI Agent × 具身交叉(语言世界模型) · 时间:2026-06-23 · 来源:arXiv 2606.24597、QwenLM 团队

事件内容

6 月 23 日,阿里通义千问(Qwen)团队在 arXiv 发布论文 Qwen-AgentWorld: Language World Models for General Agents,提出了一种 用语言模型做世界模型(world model) 的新范式,并配套开源了两个模型 + 一个新 benchmark。

核心问题:world model 预测「在当前状态 + 当前动作」下「下一状态会是什么样」——这是 agent 做推理与规划的核心认知机制。传统 world model 多用连续向量 / 像素级建模;Qwen-AgentWorld 的创新在于 全部用语言模型 + 长链思维(long chain-of-thought)做世界建模

两个模型

  • Qwen-AgentWorld-35B-A3B(35B 总参 / 3B 激活参,MoE)
  • Qwen-AgentWorld-397B-A17B(397B 总参 / 17B 激活参,MoE)

两者的共同点

  • 第一个用语言模型能模拟 7 个领域 agentic 环境的 world model
  • 1000 万+ 条环境交互轨迹训练(来自 7 个领域的真实世界环境)
  • 三阶段训练流水线:
    1. CPT(Continual Pre-Training)——从状态转移动力学 + 增强的专业语料中注入通用世界建模能力
    2. SFT——激活「下一状态预测」推理
    3. RL——用「rubric + rule 混合奖励」框架磨尖仿真保真度

新 benchmark

  • AgentWorldBench——从 5 个前沿模型在 9 个公认 benchmark 上的真实世界交互数据构建,作为语言世界模型的评测基线

两路范式(论文核心贡献 ii)

  1. 作为解耦的环境模拟器——Qwen-AgentWorld 独立跑、可控、可扩展,能模拟上千个真实世界环境给 agent 做 RL 训练,仅靠模拟器训练就比真实环境训练效果更好
  2. 作为统一的 agent 基础模型——把 world model 训练当作下游 agent 任务的预热(warm-up),在 7 个 agentic benchmark 上都取得提升

代码与模型:github.com/QwenLM/Qwen-AgentWorld

深度剖析

Qwen-AgentWorld 表面是「Qwen 团队又发了个大模型」,但它切的是具身智能 + 通用 agent 的核心认知机制——world model——这件事的战略意义远超「又一个 SOTA」。

1. 什么是 world model,为什么它对 agent 与具身智能至关重要?

World model(世界模型) 是 agent 大脑里那个「我想象一下如果我做 X,世界会变成什么样」的模块。它的价值在于:

  • 规划(planning)——agent 在做长序列决策时,需要能「在心里跑一遍」各种动作的结果
  • 反事实推理(counterfactual reasoning)——「如果我当时没这么做,会发生什么」
  • 样本效率——用模型生成的状态转移做 RL 训练,比在真实环境里跑便宜几个数量级
  • 安全性——危险场景(自动驾驶、手术机器人)必须能在 world model 里试错,而不是在真实世界

过去 5 年,world model 的主流路线是连续表征 + 像素级预测(如 Dreamer、Sora、GAIA-1),这些在视频生成、机器人控制里很强,但对「语言任务 + 工具调用 + 多步推理」的 agent 场景适配不好

Qwen-AgentWorld 的核心赌注是:用语言模型 + 长链思维来做 world model,更适合通用 agent 的认知形态

2. 为什么「语言 world model」对 agent 比对机器人更关键?

具身智能的物理世界是连续的(视觉、力觉、空间),所以连续 world model 有物理意义。但通用 agent 的世界是离散的

  • 状态 = 当前任务进度、对话历史、工具返回值、文件状态
  • 动作 = 调用哪个工具、传什么参数、写什么代码
  • 下一状态 = 工具执行结果 + 状态转移

这个「语言 / 工具 / 状态」的世界,本质上就是文本 + 结构化数据——用语言模型来预测下一状态,比用连续表征更直接、更可控、更可解释。

Qwen-AgentWorld 的赌注是:「世界」如果是离散的,「世界的模型」就应该是离散的——语言模型是天然适配的形态。

3. 三阶段训练流水线的工程深意

论文公开的训练流水线非常细致:

  • CPT(Continual Pre-Training)——从状态转移动力学(state transition dynamics)+ 增强的专业语料里注入通用世界建模能力。这一步是「让模型先看见大量「动作-结果」对」。
  • SFT——激活「下一状态预测」推理。让模型学会「在当前状态 + 当前动作下,预测下一状态」这个具体任务。
  • RL with hybrid rubric-and-rule rewards——用评分标准(rubric)+ 规则(rule)的混合奖励进一步磨尖仿真保真度。这一步的工程深意在于:单纯规则奖励容易 reward hacking,单纯 rubric 奖励信号太稀疏——Qwen 团队把两者混着用,是吸取了过去一年 RLHF 的实战教训。

这三个阶段的组合是「通用 world model 训练」的范式模板——很可能成为 2026 下半年到 2027 年各 agent 团队的标准流水线。

4. 7 个领域、1000 万条轨迹——训练数据规模的意义

1000 万条环境交互轨迹、覆盖 7 个领域(推测包括:网页浏览、文件操作、代码生成、API 调用、数据库查询、邮件 / 日程、电商 / 客服等通用 agent 任务)——这个数据规模意味着 Qwen-AgentWorld 不是「实验室玩具」

类比一下:

  • Anthropic Project Fetch 用几百个内部任务做 agent 训练
  • Devin(Cognition) 用自家标注的 SWE-bench 类任务
  • Qwen-AgentWorld 的7 领域 × 1000 万条——是通用 agent 训练数据规模的第一梯队

这是通义千问团队给整个 agent 行业「我也能做大规模」的一个硬证据

5. 35B-A3B vs 397B-A17B——双规格的工程取舍

两个模型规格很有意思:

  • 35B-A3B——35B 总参 / 3B 激活(MoE)——小模型,能在企业级 GPU 集群上单节点跑得动
  • 397B-A17B——397B 总参 / 17B 激活(MoE)——大模型,需要多节点 + 高带宽互联

双规格意味着:企业可以根据自己的硬件预算选择不同档位的 Qwen-AgentWorld——这是 Hugging Face 生态一直推动的「民主化」思路。Qwen 团队很懂这个。

6. 作为「解耦环境模拟器」的战略意义——RL 训练的成本结构将被改写

论文最有冲击力的一句话:「作为解耦的环境模拟器,Qwen-AgentWorld supports scalable and controllable simulation of thousands of real-world environments for agentic RL, yielding gains that surpass real-environment training alone.」

翻译成大白话:用 Qwen-AgentWorld 当模拟器训练 agent,效果比在真实环境里跑还更好。

这个声明的颠覆性是:

  • 过去:agent 训练 = 真实环境交互 = 慢、贵、不可控
  • 未来:agent 训练 = Qwen-AgentWorld 模拟 = 快、便宜、可控、可并行上千个环境

这是「agent 训练成本结构」的根本改变。如果 Qwen-AgentWorld 的模拟保真度真的够高,agent 训练的边际成本会从「按小时算 GPU 时薪」压到「按 batch 算推理成本」。

7. 与具身智能的关系——「语言 world model」是软具身的认知底座

Qwen-AgentWorld 不是直接做机器人——它做的是「通用 agent 的认知底座」。但这件事对具身智能同样关键

  • 物理具身(Figure、Optimus)= 连续 world model(视觉 + 力觉 + 空间)
  • 软具身(AI 助理、客服、电商导购、操作指导)= 语言 world model(文本 + 工具 + 状态)

两条路径不是互斥的——它们是「具身智能」在不同物理形态下的两条技术路线。Qwen-AgentWorld 走的是「软具身」那条——它的对手不是 Dreamer / Sora,而是 Gemini 视频通话、Anthropic Project Fetch、JoyAI-VL-Interaction。

值得关注的原因

  • 对通用 agent 行业:Qwen-AgentWorld 把「world model」从学术概念变成了可下载、可部署、可集成的生产级模型。任何做通用 agent 的团队都可以把它作为「环境模拟器」嵌入自己的 RL 训练流水线——这是 agent 训练成本结构可能被改写的开始。
  • 对具身智能(软具身路径):Qwen-AgentWorld 给「软具身」路径(持续在场 + 主动判断 + 工具调用 + 状态预测)一个统一的认知底座。配合京东 JoyAI-VL-Interaction 那种「前台观察 + 后台思考」的双层架构,整个「非机器人具身智能」赛道有了一个可拼装的技术栈
  • 对 RL 训练成本:1000 万条轨迹 + 三阶段训练流水线 + 模拟器效果超过真实环境——这套组合拳如果被业界验证,会改写 agent 训练的经济学。OpenAI、Anthropic、Google DeepMind、xAI 都会在 6-12 个月内推出对位研究。
  • 对中国大模型生态:Qwen-AgentWorld 是中国大厂第一个把「world model」做成开源 + 论文 + 模型 + benchmark 全栈产品的——这与豆包、智谱、DeepSeek、月之暗面等中国玩家形成对照。Qwen 团队在「通用 agent 认知底座」上的卡位非常精准
  • 对世界模型研究范式:连续表征 / 像素预测 / 视频生成 / 物理仿真 / 语言建模——Qwen-AgentWorld 给「语言建模是世界模型的一种合法表达」提供了第一份严肃证据。这可能在 NeurIPS 2026 / ICLR 2027 上引发一波「语言 world model」研究浪潮。

风险与待观察

  • 「模拟器效果超过真实环境」是过度声明。论文里说的「surpass real-environment training alone」——是哪个具体任务?超过多少?方差多大?可复现性如何?需要独立团队复现才能确认
  • 「1000 万条轨迹」的领域分布与质量。7 个领域、1000 万条——每个领域多少条?数据是如何采集的?有没有「真实人类操作」作为 ground truth?数据来源的透明度直接影响业界对这套系统的信任
  • 397B-A17B 的推理成本。17B 激活参数 + 397B 总参数的 MoE,单次推理的实际算力开销对企业部署来说可能仍然不低。Qwen 是否会推出 7B / 14B / 70B 的小规格版本——决定它能不能进入中小企业。
  • rubric + rule 混合奖励的可复现性。这个奖励设计非常依赖 Qwen 团队对任务的理解与人工标注,其他团队能不能复用同套设计——决定 Qwen-AgentWorld 能不能成为「业界标准」还是「Qwen 一家产品」。
  • 与 Sora / Dreamer / GAIA-1 等连续 world model 的关系。语言 world model 不是要替代连续 world model——它适用于离散任务,不适用于物理仿真、机器人控制、视频生成。业界需要在「何时用语言 world model、何时用连续 world model」上形成清晰认知。

一句话总结:Qwen-AgentWorld 不是「Qwen 又发了个大模型」——它把「语言模型做世界模型」从学术概念变成了可下载、可部署、可验证的生产级模型。如果它真的能做到「模拟器训练比真实环境还好」,通用 agent 训练的成本结构将被改写

来源:https://arxiv.org/abs/2606.24597 · https://github.com/QwenLM/Qwen-AgentWorld

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录