【卓驭科技 CEO 沈劭劼：原生多模态大模型具备更强泛化性】4 月 11 日，卓

【卓驭科技 CEO 沈劭劼：原生多模态大模型具备更强泛化性】4 月 11 日，卓驭科技 CEO 沈劭劼在 2026 年智能电动汽车发展高层论坛上说，原生多模态大模型具备更强泛化性。

沈劭劼首先分析了当前 “端到端” 技术的特点和问题。他认为，现在的端到端方案本质上是用一个模型完成整个驾驶任务，但这个模型的规模并不大，通常在数千万到数亿参数之间。这类模型需要大量专家数据——即优质的驾驶数据用于训练。当驾驶数据足够多、覆盖场景足够全面时，模型确实能够表现出色。

然而，这种技术路线存在一定短板。他以出海场景为例解释：如果遇到训练数据缺失的场景，模型本身并不具备自动泛化到完全没覆盖过场景的能力。他特别提到中德两国驾驶文化的差异——中国的路权观念相对较弱，“基本就是谁能挤谁上”，而德国的路权观念很强，更强调规则。直接将中国模型应用到德国虽然在技术上可行，但会因为驾驶风格不匹配而 “被骂死”。

要解决这个问题并非不可能，但成本高昂。沈劭劼说，比如可以在国外派 30 个人采集一年数据用于重新训练，但如果要进军全球各个国家，每个地方都要重复这个过程，成本将令企业难以承受。

针对这些局限性，他提出，原生多模态大模型将是泛化性更强的解决方案。这类模型有两个核心特征：首先，模型规模足够大，在数据充足的情况下能具备涌现能力，就像现在的语言大模型一样。其次，模型能够处理专家数据之外的多元化数据源。

他介绍，除了专门的智驾场景数据，卓驭现在还会将互联网数据、移动机器人数据，甚至 “一个人扛着相机在路上走的数据” 都输入模型做预训练，即通过尽可能多地灌输知识——不论是中国还是外国的路况信息——让模型原生地学会这些知识。在落地应用时，只需要用少量后训练数据来 “激活”，模型即可发挥作用。

沈劭劼称，“原生多模态大模型” 并非卓驭发明的技术概念，特斯拉走在前面。目前在车载场景中，真正实现这种技术的是特斯拉 FSD V14 和小鹏 VLA 2.0，但跨垂直领域的应用 “好像暂时还没出现”。

日前，特斯拉 CEO 马斯克在 X 平台上称 FSD V14 还是 “小模型”，FSD V15 才是大模型。沈劭劼认为这很正常，“模型本身一定是在越来越大的过程中，任何下一代描述前一代其实都叫小。”

关于原生多模态大模型，他还提出了一个判别标准：如果模型只能依靠单一领域的专家数据，其他数据无法使用或会导致性能下降，那就还没达到原生多模态大模型的特质——真正的原生多模态大模型应该能够处理各种非专家数据，直接通过接收视频、语音、文字等多种模态的信息做预训练。

这类模型跳出了传统的 VLA 范式——大部分原生多模态大模型并没有显性的语言（Language）输出，车辆决策不依赖显性的语言表达，而是在前空间中隐性地做场景理解。当然，如果需要语言（Language）解释，可以专门训练另一个模型来解析给人类查看。汽场全开（文丨赵宇）

众力资讯网

【卓驭科技 CEO 沈劭劼：原生多模态大模型具备更强泛化性】4 月 11 日，卓

热门分类