理想智驾的负责人郎咸朋最近在采访的时候表达了一个观点:如果还是沿着端到端思路去做所谓 VLA 的话,速度一定会变慢,核心还是需要世界模型。
(我插一句嘴:L4 级的那套技术路径还是被用到了L2+身上了。)
底层原因是:从训练1000 万 clips 到 1 亿个 Clips ,算力、模型暂且不谈,哪怕是纯训练、迭代的时间都会变慢。
所以必须要用到云端世界模型。
世界模型就是在云端模拟真实的物理世界去做场景的生成。
理想的最终目标是让算法在模拟世界里跑极品飞车,像《SimCity》,车、算法在这里面跑一天,等于你在真实世界里跑好几年的训练速度,那时候会非常快。