Qwen发布AgentWorld：首个原生语言世界模型，七大统一域超越GPT-5.4

📅 2026年06月26日 · 技术

AI Agent 的"上帝模拟器"来了

想象一下，你有一个 AI 能模拟终端会输出什么、浏览器会渲染什么、甚至 Android 界面会如何响应你的操作——这不再是科幻。6月24日，Qwen 团队正式开源了 Qwen-AgentWorld，一个以"语言世界模型"（Language World Model）为核心的 Agent 环境模拟器。

不同于传统方法把环境建模当作模型训练后的附加能力，AgentWorld 从训练之初就把"预测环境反馈"作为核心目标。它基于超过 1000 万条真实的 Agent 交互轨迹，经过 CPT（续训）、SFT（监督微调）和 RL（强化学习）三阶段训练，最终能够准确模拟 7 个 Agent 交互域的运行反馈。

七大统一域，全面覆盖

AgentWorld 支持以下七个域的环境模拟：MCP 工具调用、搜索引擎、终端命令行、软件开发（SWE）、Android 界面、Web 浏览器以及操作系统。无论你的 Agent 是在操作终端、执行代码还是浏览网页，AgentWorld 都能预测下一步的环境状态。

基准测试 AgentWorldBench 的结果令人印象深刻：AgentWorld-397B-A17B 以总分 58.71 超越 GPT-5.4（58.25）和 Claude Opus 4.8（56.59），成为综合表现最强的世界模型。其中 35B-A3B 版本（仅 3B 活跃参数）相比同基座模型 Qwen3.5-35B-A3B 提升了 8.66 分。

核心亮点

原生世界模型：环境建模不在后处理阶段，而是从 CPT 阶段就作为训练目标嵌入模型
零样本泛化：无需微调即可迁移到未见过的环境（如 OpenClaw），模拟 RL 训练后 Agent 成功率提升 7-12%
可控模拟：可以注入定向"扰动"测试 Agent 鲁棒性，也能构建虚构世界训练 Agent 的搜索能力
Agent 基础模型：世界模型的 RL 预热可以从单轮非 Agent 任务迁移到多轮工具调用场景，性能提升 3-13%

快速上手

Qwen-AgentWorld-35B-A3B 已开源至 Hugging Face 和 ModelScope，支持 SGLang 和 vLLM 部署。只需一条命令即可启动服务：

python -m sglang.launch_server \
    --model-path Qwen/Qwen-AgentWorld-35B-A3B \
    --context-length 262144 \
    --reasoning-parser qwen3

项目提供了7个域的专用 System Prompt 模板和完整的评估脚本，开发者可以轻松在自己的场景中测试世界模型的模拟能力。

对于 Agent 开发者来说，AgentWorld 开辟了一个全新的范式：在模拟环境中训练 Agent，而不是直接在真实环境中试错。这意味着更低的成本、更快的迭代和更多可控的测试场景。这可能是通往通用 Agent 的关键一环。

参考来源

Qwen-AgentWorld — GitHub