Qwen发布AgentWorld:首个原生语言世界模型,七大统一域超越GPT-5.4
📅 2026年06月26日 · 技术
AI Agent 的"上帝模拟器"来了
想象一下,你有一个 AI 能模拟终端会输出什么、浏览器会渲染什么、甚至 Android 界面会如何响应你的操作——这不再是科幻。6月24日,Qwen 团队正式开源了 Qwen-AgentWorld,一个以"语言世界模型"(Language World Model)为核心的 Agent 环境模拟器。
不同于传统方法把环境建模当作模型训练后的附加能力,AgentWorld 从训练之初就把"预测环境反馈"作为核心目标。它基于超过 1000 万条真实的 Agent 交互轨迹,经过 CPT(续训)、SFT(监督微调)和 RL(强化学习)三阶段训练,最终能够准确模拟 7 个 Agent 交互域的运行反馈。
七大统一域,全面覆盖
AgentWorld 支持以下七个域的环境模拟:MCP 工具调用、搜索引擎、终端命令行、软件开发(SWE)、Android 界面、Web 浏览器以及操作系统。无论你的 Agent 是在操作终端、执行代码还是浏览网页,AgentWorld 都能预测下一步的环境状态。
基准测试 AgentWorldBench 的结果令人印象深刻:AgentWorld-397B-A17B 以总分 58.71 超越 GPT-5.4(58.25)和 Claude Opus 4.8(56.59),成为综合表现最强的世界模型。其中 35B-A3B 版本(仅 3B 活跃参数)相比同基座模型 Qwen3.5-35B-A3B 提升了 8.66 分。
核心亮点
- 原生世界模型:环境建模不在后处理阶段,而是从 CPT 阶段就作为训练目标嵌入模型
- 零样本泛化:无需微调即可迁移到未见过的环境(如 OpenClaw),模拟 RL 训练后 Agent 成功率提升 7-12%
- 可控模拟:可以注入定向"扰动"测试 Agent 鲁棒性,也能构建虚构世界训练 Agent 的搜索能力
- Agent 基础模型:世界模型的 RL 预热可以从单轮非 Agent 任务迁移到多轮工具调用场景,性能提升 3-13%
快速上手
Qwen-AgentWorld-35B-A3B 已开源至 Hugging Face 和 ModelScope,支持 SGLang 和 vLLM 部署。只需一条命令即可启动服务:
python -m sglang.launch_server \
--model-path Qwen/Qwen-AgentWorld-35B-A3B \
--context-length 262144 \
--reasoning-parser qwen3
项目提供了7个域的专用 System Prompt 模板和完整的评估脚本,开发者可以轻松在自己的场景中测试世界模型的模拟能力。
对于 Agent 开发者来说,AgentWorld 开辟了一个全新的范式:在模拟环境中训练 Agent,而不是直接在真实环境中试错。这意味着更低的成本、更快的迭代和更多可控的测试场景。这可能是通往通用 Agent 的关键一环。