E2E+VLM 是快慢系统
VLA是一个系统
多模态信息整合对齐进VL Model 3.2B
VL Model 输出 Token 后用Action Model 输出轨迹
轨迹再去控车
整个从输入到输出是一个串行系统
并不是以前E2E+VLM 存在两个并行快慢系统
而E2E可以理解是基于模仿学习的方式生成一个神经网络模型【知其然而不知其所以然】
VLM是一个具备思考能力的视觉语言模型
而VLA是一个来自于强化学习涌现出来驾驶能力的构架
E2E+VLM 是快慢系统
VLA是一个系统
多模态信息整合对齐进VL Model 3.2B
VL Model 输出 Token 后用Action Model 输出轨迹
轨迹再去控车
整个从输入到输出是一个串行系统
并不是以前E2E+VLM 存在两个并行快慢系统
而E2E可以理解是基于模仿学习的方式生成一个神经网络模型【知其然而不知其所以然】
VLM是一个具备思考能力的视觉语言模型
而VLA是一个来自于强化学习涌现出来驾驶能力的构架
作者最新文章
热门分类
汽车TOP
汽车最新文章