众力资讯网

[CL]《Qwen-AgentWorld: Language World Mod

[CL]《Qwen-AgentWorld: Language World Models for General Agents》Y Zuo, Z Xiao, L Sheng, F Huang... [Qwen Team] (2026)

在通用智能体领域,如何让智能体在复杂、不可逆或高成本的真实环境中高效进化是一个悬而未决的难题。过去的方法受困于对真实物理/数字环境的过度依赖,本质原因是缺乏一个能够精准预测动作后果、模拟环境动态的“世界模型”,导致智能体难以在安全受控的虚拟空间中进行大规模自我演进。

本文的核心洞见是:把语言模型重新看作具备感知与推理能力的“数字世界模拟器”。由此,通过“预训练注入知识、微调激活推理、强化学习磨练精度”的三阶段协议,Qwen-AgentWorld 实现了对终端、代码、网页等七大领域的深度对齐,其关键操作是引入长链条思维(CoT)来模拟环境状态的因果演化,使模型能像人类一样在行动前进行“心理模拟”。

这项工作真正留下的遗产是证明了“语言世界模型”可以作为智能体成长的通用底座,通过虚拟环境的无限扩展打破了数据瓶颈。它为后来者打开的新门是利用可控模拟(如虚构世界、注入故障)来定向强化智能体弱点,但尚未跨过的门槛是如何在保持文本逻辑一致性的同时,实现视觉像素级与语义状态的高度统一模拟。

arxiv.org/abs/2606.24597 机器学习人工智能论文AI创造营