对话蔚来任少卿：端到端之后才是大模型｜钛度车库-钛媒体官方网站

蔚来智能驾驶研发副总裁任少卿

“别人都在开城，蔚来为什么不发布开城数据？”相信这是很多人的疑问。

在这个智驾领域尤其浮躁的时代里，有人喊出了“智驾全国都能开”，而蔚来这家造车新势力，在智驾层面却从未喊出过激进的开城口号。

有人说蔚来的钱都花在了堆硬件层面了，“在毫无意义的地方花了很多钱。”难道蔚来在智驾层面真的把钱花错了地方？

蔚来的智驾能力到底如何？为什么大家都在干的事蔚来没有干？蔚来在智驾上到底要怎么干？新发布的乐道品牌会用上蔚来的智驾功能吗？带着一连串的疑问，钛媒体App近期对话了蔚来智能驾驶研发副总裁任少卿。

在来蔚来之前，任少卿是原Momenta研发总监兼联合创始人。其毕业于中国科学技术大学与微软亚洲研究院联合培养博士班；2022年获得人工智能全球最具影响力学者榜单——AI 2000，排名第十；2022年入选AI华人青年学者榜单；2023年，荣获2023未来科学大奖数学与计算机科学奖。

好汉不提当年勇。对于过去的成绩，任少卿不愿讲述太多，他更愿意分享他当下在做的事，以及未来想要做的事。

“群体智能：让智驾更安全”

在北京车展前夕，任少卿第一次出现在李斌的直播间。之前他并未在直播间出现过，用他的话说，“抖音都很少玩，现在是被斌哥（蔚来汽车董事长李斌）给带出来的。”

虽然是第一次参与智驾的直播，但他并不紧张，用他的话说，“蔚来的智驾功能，你已经测试过很多次了，对于其能力你还是很了解的，了解了就不会有什么紧张。”

在那场智驾的直播过程中，有一个令人印象深刻的0.5次接管，在方向盘掰出的幅度比较小的情况之下，蔚来的辅助驾驶系统并未退出。

任少卿对此解释说，我们的设计实际上会有一定的这个幅度，系统是可以容忍方向盘有一定角度的调整。这样可以实现“人机共驾”之间更好地交互。

简言之，就是在一个车道里面，你可以加上你的意图给车，车还会加上他的意图，一起实现共驾这辆车。而不是当你手碰方向盘时，辅助驾驶就立刻退出。

在直播的过程中，任少卿一直坐在后排，返程的时候，他坐在了前排副驾，开到半路，他问坐在后排的李斌，“你们觉得现在是车在开还是人在开？”

车自己开与人来开，带给后排乘客的体验，已经傻傻分不清了。这也是蔚来的目标，也是李斌反复对外强调的“人机共驾”，让驾驶更安全，打通“类无人”的驾驶方式。

蔚来已经于4月30日向所有NT2平台车型全量推送了全域领航辅助NOP+的城区功能。这也是继华为之后，第二家交付全域领航辅助的车企。从覆盖的用户规模来看，蔚来覆盖超24万名用户。作为比较，理想是20-25万名，问界和小鹏各有7-8万多名。

李斌曾说过，从用户规模、已验证可用范围和已验证道路里程来看，蔚来毫无疑问是智驾第一梯队选手。截至4月20日，蔚来NOP+城区智驾在全国726座城市可用，覆盖范围99%；城区智驾已开通里程超过84万公里，比原计划今年6月实现40万公里的里程大幅提升。

为什么呢？其实，背后主要得益于两方面的原因，一是以通用能力为主的底层智驾研发能力的持续迭代；二是蔚来独特的群体智能的助推，这是蔚来智驾提速的幕后技术功臣。

所谓群体智能，即通过用户车辆对每条路进行验证，然后通过分布式验证和集中优化的方式，帮助每个用户跑过的每条路进行安全验证，最终针对每个版本开展超过1000万公里的实车测试，才会推送给用户。

之所以说群体智能是蔚来的独有能力，主要是因为蔚来为每个NT2.0平台车型都标配了四颗Orin 芯片，其中一颗专门用于群体智能。相较蔚来，同行要么只配置至多两颗芯片，要么只在高配车型上配置芯片，很难像蔚来一样实现群体智能。这也是蔚来为何前期搭建基础耗费时间比较长，而一旦搭建完成，智驾普及快速进入第一梯队的原因。

更为重要的是，群体智能可以帮助蔚来发现所有的风险场景，而行业的一般做法是靠测试车完成。但测试车的规模毕竟有限，很难覆盖所有的极端场景。而蔚来依靠群体智能，显著提升了找到不安全场景的能力。可以看到，通过群体智能，蔚来建立了发现不知道场景的能力。这也是很多用户在使用智驾时对极端场景的安全担忧，蔚来通过群体智能将主动安全做得更安全。

“靠着群体智能，我们在数据的维度持续挖掘，找到接管的数据、找到潜在的风险，同时处理这些高价值的数据。现在我们已经有超过一千万公里的高价值数据，保证我们在领航的状态，在主动安全的状态做到更加安全。”任少卿表示。

“人车共驾：如何让用户感到安心？”

虽然蔚来的群体智能大幅提升了应对极端场景的处理能力，但碍于技术瓶颈和安全法规，现阶段的智驾还处在L2+阶段，虽然在部分场景可以实现类L3功能，但毕竟没有到全程不需要驾驶员操作的L4阶段。因而，人车共驾，是现阶段智驾的主要特点。

但实现人车共驾，并不是一件容易的事。因为其中的核心是事关安全，一旦处理不好人驾和智驾的关系，用户开启一次就会终生弃用。为了做好人机共驾，蔚来主要做了两方面的工作。

一方面是让提醒功能更人性化了。传统的驾驶人监测系统DMS，会在车上装一个摄像头，监测驾驶员的状态，一旦有不符合驾驶安全的行为，系统会自动发出提醒。但任少卿认为对于智驾系统来说，这远远不够，因为缺乏对车辆本身和车外的监测。

在任少卿看来，人、车和车外环境是一个整体，需要将三者进行统一的融合，实现在真正危险的场景下对人发出准确的提醒，而在不危险的情况下则要做到减少打扰。

为此，蔚来开发了一套将驾驶员、车、智能驾驶融合成一套整体的模型——ADMS。它会通过对整体车的状态、驾驶员的状态，以及车外环境状态进行统一建模，实现在有必要的场景提醒驾驶员，在没有必要的场景减少提醒。

任少卿表示，相较传统的DMS，蔚来的人车共驾模型ADMS，在风险场景的有效提醒率上升高了3.5倍。对于现阶段的智驾而言，实现人和车的共驾尤为重要，尤其是对于安全而言。这是智驾实现“减少精力、减少事故”的安全，这也是蔚来2017年开始开发智能驾驶系统时的初心。

除了具有更好的人车共驾模型ADMS确保安全外，蔚来还创新地推出了智驾分体系，这一使用体系就像是城区智驾的操作教程，可以帮助用户建立起正确、安全的全域智驾使用观念。

智驾分的核心，是建立一个长期的人车共驾下驾驶员安全行为引导机制，通过分值的变化让驾驶员关注并持续确保自身驾驶行为的正确。

据悉，智驾分主要从专注安全驾驶、合理地完成系统接管响应和良好的智驾经验三方面，通过对过去30个智驾使用日（新用户为100公里智驾里程）的人车共驾行为进行模型化评估。

用户开通城区智驾之前，为了确保他对于城区智驾的功能理解，需要完成经验任务且NOP+高速城快智驾里程达100公里。后续在使用过程中，会结合智驾分体系对用户使用全域领航辅助NOP+的全量功能使用里程范围管控，分数高于70分全量城区验证道路可用，分数低于70分，则只有城区主干验证道路可用。

任少卿表示，智驾分的根本目的是希望让用户看到一些与其驾驶安全相关的更显性的事情或指标。“原来大家开车时可能并不太关注自己的驾驶习惯，有了这个智驾分之后，可能每次开车的时候就会注意一下这个事，它就会变好。”

ADMS的开发和智驾分体系的建立，可以让蔚来用户在开启全域领航辅助NOP+时，达到理想的人车共驾状态。什么是理想的人车共驾状态？“安心感，让用户持续处于安心、舒适的状态。”任少卿说道。

事实上，对于现在90%的用户，城区智驾都是一个新鲜事物。在任少卿看来，车企卷智驾开城速度的前提，应该将安全保障置于前置条件，也应该提醒用户安全大于一切。

“控成本，自研智驾芯片”

今年智驾有一个趋势，就是往下卷。在任少卿看来，从产品的角度来说，其实就这两件事，要么就是同样的性能更便宜，要么就是同样的价格性能更好。

值得注意的是，智能驾驶里面最贵的部分或者说最核心的部分是芯片。要想实现降本增效，自研智驾芯片是其中的方法之一。这也是为什么蔚来要自研智驾芯片的原因之一。

在2023 NIO Day上，蔚来正式发布了首颗自研智能驾驶芯片——神玑NX9031。蔚来的目标是用一颗自研芯片实现目前业界四颗旗舰智能驾驶芯片的性能，使得效率和成本更优。

任少卿认为，不管从商业的角度，还是从功能的角度来看，2024、2025年是整个行业疯狂变化的阶段，也是疯狂提升的阶段。

对于购车的用户来说，会考虑车如果要用8年、10年，那这个车的智驾功能是否可以用这么久。

蔚来对于这方面的考量是，硬件上要做到领先两代，一代基本上是三年，六年就是一个比较领先的硬件。同时软件做到九年、十年。

在任少卿看来，2027年、2028年、2029年以后，硬件迭代的速度可能就会慢下来。因此，车可能就不需要预埋那么多硬件，但是从2022年到2026年这个时间段，硬件的变化速度非常快，可能就需要预埋更多的硬件，这样才能保证接下来的6年，车上的一些软件相对来说好用的，可用的。

从软件的角度来说，大多数车企其实不同车型的软件是不一样的，直接带来的问题是后续维护、运营、迭代带来的成本非常高，很难持续维护6年、10年。

这也是蔚来为什么一直强调NAD的架构，在任少卿看来，软件层面的平台化和统一化，实际上才是消费者的最终价值所在。

比如新推出的乐道品牌和蔚来的底层架构是一样的，软件和硬件同架构，意味着很多数据可以共享。比如摄像头的那两个犄角都还在，很多底层这个感知的数据，就像摄像头积累的这些数据都是共享的。

相当于乐道到量产的时候，它对于这些摄像头相关的corner case（极端情况），它是经过蔚来的这些车验证过，它是有好多年的这个积累，它不是一个从零开始的状态。

任少卿指出，“智驾的本质是你上线的时候做不到90%的能力，那用户的价值就会受限制。”

也就是说，新车上搭载的智能驾驶，刚买车时，智驾功能可能还没有实现超过50%。智驾量产后，能力还持续迭代。如果软件架构没有做好，或者说没有好的平台，后续是无法进行持续迭代的。

“现在可能大家对于订阅的接受度没有那么高，但我们一直认为这是正确的方向。”在任少卿看来，如果没有订阅模式，只是一锤子买卖，就是我卖了一套硬件、一套软件，交付的时候就把钱收完了，后续谁还有动力去优化？

“端到端之后才是大模型”

对于现在大家都在讲的大模型上车，任少卿认为，大模型现在更多地变成了一个宣传的东西。

从技术的角度来说，大模式实际上拆开来看，包含了很多层的东西。

具体来说，首先要模型化。

大家其实还没有搞明白什么是模型，为什么要搞机器学习或者人工智能这个事，就开始要大模型。

实际上，搞模型有好处也有坏处。模型的好处是把复杂的系统问题简单化，让人去训练模型，接近问题的办法从加人变成了加数据。很多公司在这个层面开始往里走，而且走得很深了。

那模型不好的点是什么？任少卿解释说，模型化这件事不是说说就可以了，需要建立相应的能力。比如需要建立一个结合现实的自训模型的底层架构，包括数据体系，如何找到高质量的数据？怎么找到corner case？然后去建立一个把这些标注数据处理的系统，最后才是建立一个训练的系统。有了这些基础能力之后，其实才是起步开始做模型化。

这听起来不太好理解，但简言之，就是要先有一个底层的架构，然后才能干其他的。

此前任少卿在蔚来智能驾驶发布会上公布了蔚来实现城区智驾公式（通用能力+按路验证/优化/开通/运营=全域领航辅助 NOP+）。

该公式中首先提到的通用能力就是蔚来智驾的底层能力，其中也用到了现在业界讨论比较多的技术——“占用网络 OCC 2.0”。

占用网络OCC（Occupancy Network ），实际上其原理是通过获取体积占据信息，使得系统能够在三维空间中精确地定位物体并识别其形状，而非仅在二维平面上进行识别，能够处理更复杂的空间关系，从而提升自动驾驶的能力。

蔚来将OCC2.0表述为“超高精度纯视觉栅格”，再加上车上的11个摄像头，其智能驾驶的“感知精度”与“泛化能力”都会有较大的提升。

当有了这个基础能力之后，就可以开始训练模型，那是不是意味着就可以上车了？其实，还会面临很多的问题。

比如说发现了一个case（问题），这个case 不过，模型重新训，然后把所有的 case 重新测， 100% 的 case 全部重新过一遍。

因为涉及迭代的速度，要在同样的时间，有了这个case，依然希望在3天能修复掉。从测试的角度来说，之前是 1% 测一遍，现在是 100% 测完。

“那你的整体的测试能力要提升 100 倍。如果没有办法提升 100 倍，模型就是扯淡。”

所以第一步，大家都是模型化。感知模型化大家都没问题了，实际上这些规控模型的模型化，头部都没怎么做全。

“模型之后是端到端，最后才能叫大模型。”

为什么要端到端？在任少卿看来，其实训练这个智能驾驶，它本身也生产一个产品，只是它产出来的不是一个车，它产出来的是这个模型或者是一个功能。但它也是一个复杂的产品，它有非常多的东西需要去做。

为了更好地理解端到端，任少卿将其比喻成福特的T型车流水线。

早期大家做自动驾驶，可能几个人坐下来把能想到的东西都写下来，在实验室阶段可能三个人就能完成；但在工程化阶段，就不可能再是这样一个东西，就变成一个T型车的流水线，开始拆工序，第一步做什么、第二步做什么、第三步做什么……一步一步把流水线给建立起来。

所以就变成了第一步要做感知，感知完了做定位，然后做规划，再做控制。拆分完了流水线，爽的事情是看起来部分解耦了，但带来的问题是这个中间的接口必须定义得非常清楚，以及非常简单，流水线才能走。但是这个接口的定义本质上是有问题。

有什么问题吗？“因为真实世界没有这么简单，真实世界是复杂的。”任少卿说道，越往后你会发现，你可以解决99%的问题，但就是这1%的问题解决不了。

不管如何定义这个接口，最后可能还有问题无法解决。“所以大家就希望说那我不定这个接口了，我让这个接口，网络自己学，就机器自己去定，那这个的核心就是端到端，就相当于说把这个前面和后面连起来，把这接口干掉，能干掉很多事。”

“那就要从我们自己的定义来说，大模型一直要解决的是你有一个更强地对世界的建立认知的能力，以及预测的能力。”任少卿坦言道。（本文首发于钛媒体App，作者｜王瑞昊，编辑｜张敏）