众力资讯网

【卓驭科技 CEO 沈劭劼:原生多模态大模型具备更强泛化性】4 月 11 日,卓

【卓驭科技 CEO 沈劭劼:原生多模态大模型具备更强泛化性】4 月 11 日,卓驭科技 CEO 沈劭劼在 2026 年智能电动汽车发展高层论坛上说,原生多模态大模型具备更强泛化性。

沈劭劼首先分析了当前 “端到端” 技术的特点和问题。他认为,现在的端到端方案本质上是用一个模型完成整个驾驶任务,但这个模型的规模并不大,通常在数千万到数亿参数之间。这类模型需要大量专家数据——即优质的驾驶数据用于训练。当驾驶数据足够多、覆盖场景足够全面时,模型确实能够表现出色。

然而,这种技术路线存在一定短板。他以出海场景为例解释:如果遇到训练数据缺失的场景,模型本身并不具备自动泛化到完全没覆盖过场景的能力。他特别提到中德两国驾驶文化的差异——中国的路权观念相对较弱,“基本就是谁能挤谁上”,而德国的路权观念很强,更强调规则。直接将中国模型应用到德国虽然在技术上可行,但会因为驾驶风格不匹配而 “被骂死”。

要解决这个问题并非不可能,但成本高昂。沈劭劼说,比如可以在国外派 30 个人采集一年数据用于重新训练,但如果要进军全球各个国家,每个地方都要重复这个过程,成本将令企业难以承受。

针对这些局限性,他提出,原生多模态大模型将是泛化性更强的解决方案。这类模型有两个核心特征:首先,模型规模足够大,在数据充足的情况下能具备涌现能力,就像现在的语言大模型一样。其次,模型能够处理专家数据之外的多元化数据源。

他介绍,除了专门的智驾场景数据,卓驭现在还会将互联网数据、移动机器人数据,甚至 “一个人扛着相机在路上走的数据” 都输入模型做预训练,即通过尽可能多地灌输知识——不论是中国还是外国的路况信息——让模型原生地学会这些知识。在落地应用时,只需要用少量后训练数据来 “激活”,模型即可发挥作用。

沈劭劼称,“原生多模态大模型” 并非卓驭发明的技术概念,特斯拉走在前面。目前在车载场景中,真正实现这种技术的是特斯拉 FSD V14 和小鹏 VLA 2.0,但跨垂直领域的应用 “好像暂时还没出现”。

日前,特斯拉 CEO 马斯克在 X 平台上称 FSD V14 还是 “小模型”,FSD V15 才是大模型。沈劭劼认为这很正常,“模型本身一定是在越来越大的过程中,任何下一代描述前一代其实都叫小。”

关于原生多模态大模型,他还提出了一个判别标准:如果模型只能依靠单一领域的专家数据,其他数据无法使用或会导致性能下降,那就还没达到原生多模态大模型的特质——真正的原生多模态大模型应该能够处理各种非专家数据,直接通过接收视频、语音、文字等多种模态的信息做预训练。

这类模型跳出了传统的 VLA 范式——大部分原生多模态大模型并没有显性的语言(Language)输出,车辆决策不依赖显性的语言表达,而是在前空间中隐性地做场景理解。当然,如果需要语言(Language)解释,可以专门训练另一个模型来解析给人类查看。汽场全开 (文丨赵宇)