现在用800W或者更高像素的AD摄像头,如果用LLM去做
其实信息损失的真不少,我没记错的常规的区域划分也就 30*20 个区域
原因是过密的区域切割 会导致Token数量太多,
所以才提出来要对重要区域进行编码,而不是全局编码。
本身图像视频流里面也不是所有区域的像素都是具有意义的
这个思路已经在多家尝试落地了
在车端算力存在瓶颈下,提升能力上限重要方法
只关注感兴趣的,重要的特征
现在用800W或者更高像素的AD摄像头,如果用LLM去做
其实信息损失的真不少,我没记错的常规的区域划分也就 30*20 个区域
原因是过密的区域切割 会导致Token数量太多,
所以才提出来要对重要区域进行编码,而不是全局编码。
本身图像视频流里面也不是所有区域的像素都是具有意义的
这个思路已经在多家尝试落地了
在车端算力存在瓶颈下,提升能力上限重要方法
只关注感兴趣的,重要的特征
作者最新文章
热门分类
汽车TOP
汽车最新文章