众力资讯网

这张图还是很清楚的解释了VLA是个啥。简单说就是通过摄像头看到了画面(Visio

这张图还是很清楚的解释了VLA是个啥。

简单说就是通过摄像头看到了画面(Vision),然后用大模型解读画面提取有效信息(Language),再通过大模型针对信息给出决策(Action)参考

存在着大模型解读画面的信息损失和延时,还有根据信息给出Action的信息损失和延时,所以VLA是个快不起来的东西。

小鹏科技日