FSDV14.1的片段都看过了吧?聊点我觉得劲爆的吧V14.1上面表现出的多模态的感知和推理效果,说实话已经达到了匪夷所思的地步了。过去市面上的辅助驾驶系统处理的基本都是和直接的驾驶行为只有1-4个推理步骤,比如前车减速-自车减速只需要经过一个推理步骤,而地库里看到凸面镜里的车就需要经过大概4-5个推理步骤(是个凸面镜>凸面镜的方向>凸面镜里的车>车的位置和运动趋势--自车减速)但是像麦当劳取餐的事件和驾驶行为的关系,就太他妈长了……甚至我觉得哪怕让一个团队专门处理这一个场景都很难。经验丰富的司机能捕获大量细节进行推理反应,里面包含的不仅是推理的长度还有认知范围的广度,而让一个自动驾驶专用模型去接近一个人的认知广度甚至还得跑在车端,难度真是离谱啊…所以长链路、长时序、广认知,这些已经完全脱离出端到端的范畴了,一定是有大脑的接入,也就是一个本地的LLM在起到思考的效果,同时多个模块之间的协同能有非常低的延时。这些多种特征都指向了一个更加底层的类似世界模型的架构。最关键的是,这样一套架构和表现出的这些推理效果,最受益的形态还不是车,应该是人形机器人,所以特斯拉真的能快速跑出这么一套方案的话,那么量产的Optimus也快了。但这么一细想,就更加让人恐惧特斯拉了…