众力资讯网

这张图还是很清楚的解释了VLA是个啥。简单说就是通过摄像头看到了画面(Visio

2025-11-05 16:29:46 元香评汽车啊汽车

这张图还是很清楚的解释了VLA是个啥。

简单说就是通过摄像头看到了画面(Vision)，然后用大模型解读画面提取有效信息(Language)，再通过大模型针对信息给出决策（Action）参考

存在着大模型解读画面的信息损失和延时，还有根据信息给出Action的信息损失和延时，所以VLA是个快不起来的东西。

小鹏科技日

阅读：0 点赞：0