众力资讯网

AGIBOT WORLD CHALLENGE冠军:世界模型需从“画面逼真”转向“动作可控”

4月30日,由智元(AGIBOT)主办、在全球机器人领域顶级学术盛会ICRA 2026框架下举办的AGIBOT WORL

4月30日,由智元(AGIBOT)主办、在全球机器人领域顶级学术盛会ICRA 2026框架下举办的AGIBOT WORLD CHALLENGE @ICRA 2026世界模型赛道中,来自中科院自动化所模式识别实验室与高德地图CV Lab的联合团队NeoVerse-ABot以0.829的成绩夺得全球冠军。在未来图灵参加赛后群访中,团队核心成员李锐智、李俊彦透露了一个反直觉的发现:在机器人世界模型的训练中,“失败数据”比成功数据更具教学价值。

失败轨迹是“黄金监督信号”

“对于做world model来讲,失败的轨迹反而是对我们来讲非常重要,它不是一种噪声,它是一种非常重要的训练的监督。”李俊彦在采访中强调。

他举例说明,在遥操数据集中,大部分操作都是成功的,偶尔会出现夹爪没夹住物体、物体中途掉落、或者第一遍没夹起来需要补夹一次的情况。“这个世界模型并不会自然而然地形成一种‘我的任务会失败’的认识。”李俊彦说,“我们需要填很多的failure case来告诉模型,不是说你的夹爪一伸到物体附近,物体就会自动吸附进去。”

团队从数据集中专门挖掘了这些失败片段,通过调大它们的训练权重,让模型学会“夹爪有可能夹不住”、“东西会往下掉”这些物理世界中真实存在的可能性。

动作对齐比画面漂亮更重要

传统视频生成模型追求画面的逼真度和流畅性,但李俊彦指出,这对具身智能可能反而是有害的。“如果我们继续沿用纯视频生成的评价方式,视频可能会生成得非常漂亮,但是它不受机器人给出的动作的控制,甚至会在操作过程当中自动脑补成功的结果。”

为此,团队搭建了一套离线内外参优化管线。李锐智解释:“机器人组装过程中,相机支架的安装误差、相机本身的畸变参数都会影响动作在图像中的投影位置。”通过联合优化这些参数,团队在比赛的“动作跟随”小分上排名第一。

14B参数模型,训练成本贯穿全流程

谈及世界模型的训练成本,李俊彦表示这并非集中在某一个环节,而是贯穿数据准备、模型训练和后期评估的全过程。

“我们参赛的模型是14B的参数量,对显存的容量和整体算力集群的要求非常高。”他透露,比赛最终评测分辨率为640×480,对于视频生成模型已是相当高的指标。此外,大规模的分布式训练不可避免面临节点故障风险,需要配备断点恢复机制。

训练后的评估同样耗时。“面向具身的世界模型评估,不是一个完全依赖已有视觉指标的方案。”李俊彦说,团队需要大量人力来挖掘失败样本,寻找能够推动分数上涨的改进点。

世界模型的下一个目标:从“预测视频”到“因果模拟器”

被问及通往具身通用智能的下一个科学问题时,李锐智提出,团队希望让世界模型从“预测一个可能的视频”进一步走向“对机器人决策可用的因果模拟器”。

“具身智能真正需要的是,机器人面对新的场景、新的物体或新的动作时,能否可靠地预测不同动作的后果和风险,判断哪些动作可能成功、哪些具有危险性。”他解释,这要求模型具备反事实推理和长期状态记忆的能力。

团队下一步将聚焦三个方向:提升在corner case和新场景下的泛化预测能力;让模型不仅能生成,还能输出用于规划的状态评估和风险评估;将世界模型接入机器人的闭环决策,实现自我提升。

亚军团队的物理机理探索

世界模型赛道亚军、来自中科院工业人工智能研究所的物理智能团队(PAI@IAII)同样强调了物理规律的重要性。团队成员黄雨行指出,当前世界模型大多依赖数据驱动的统计学习,缺乏对场景中物体几何关系和物理规律的建模,“这会导致生成的未来推演违反物理常识,比如倒水时水杯里的水位没有变化”。

该团队导师徐凯研究员在书面回复中进一步表示,纯数据驱动的“黑盒”模型难以支撑工业级交互。“我们不能仅靠增加数据量来‘撞大运’式地撞出物理规律,必须等待‘机理建模与数据驱动’深度融合技术的成熟。”

本届赛事由智元(AGIBOT)主办,在ICRA 2026体系下展开,共吸引来自全球27个国家及地区的526支队伍报名。世界模型赛道采用智元自研评测基准EWMBench,引入真机数据集AGIBOT World作为官方数据集,要求模型在真实机器人任务导向的基准上进行验证。