车企新旧势力抢着上，端到端真能颠覆自动驾驶？

图片来源：AI生成

今年5月，自动驾驶迎来了一笔10亿美金的巨额融资。

聚焦研发端到端自动驾驶以及自动驾驶大模型的英国初创公司Wayve.AI官宣获得了一轮10.5亿美元的融资，投资方为软银、英伟达和现有投资人微软。

即使在自动驾驶融资高涨的时候，获得过10亿美金级融资的公司也并不多，能够挑出来的大概只有Waymo、Argo、Cruise等少数几家。更何况自2021年上半年以来，全球自动驾驶投融资市场进入低迷期。在鲜有资本在自动驾驶领域投入巨额资金的情况下，Wayve.AI凭借“端到端自动驾驶”概念拿下了10亿美元级别的融资，或许已经在指明潮水的方向。

端到端并不是一个新的概念，它的“翻红”来自2023年8月特斯拉发布的FSD V12版本。此后，迅速成为自动驾驶领域的“当红炸子鸡”。今年4月，马斯克旋风访华，外界盛传他为FSD进入中国而来，这让人看到了使用端到端方案的FSD加速入华的可能性。

国内的头部参与者们自然不甘示弱，小鹏、理想、蔚来、长城、华为、元戎启行、毫末智行都不约而同地转向端到端自动驾驶路线，希望其成为狙击对手的“大杀器”。

显然，在赛道越来越卷，以及特斯拉FSD即将入华的挑战和激励下，一场新的行业变局正在酝酿。

端到端与大模型，并不必然相关

自动驾驶行业一向热衷发明新词，比如前年流行的是“Transfomer+BEV”，去年爆火的是“大模型”、“无图”，今年轮到了“端到端”。那么，究竟什么是端到端？

所谓端到端（end-to-end）架构，其对应的是传统自动驾驶采用的模块化架构。传统的自动驾驶架构更多衍生于机器人架构，通常包含感知、定位、规划三大模块，不同领域的工程师负责不同的模块。虽然这种方法在早期的自动驾驶技术发展中起到了积极作用，但也暴露出了一些明显的弊端。

零一汽车智能驾驶合伙人、前图森感知负责人王泮渠就指出，分模块会导致架构复杂，通常有3-40个模块，各个模块上限不高，传输和优化难度高，并且局部与整体优化目标冲突。

除此之外，他还表示，开发、维护和人力成本会随着模块增加而飙升。并且由于叠加规则应对交付压力，导致维护性和可扩展性变差。

相比之下，端到端不需要人为将任务分解成多个中间步骤，以感知的传感器数据（图像、点云、雷达）作为输入，直接输出用于车辆的控制指令（油门、刹车），中间过程都靠神经网络模型来完成。如果用日常的做菜过程来理解的话，端到端就有点类似在模型这边输入食材，另一边一步到位输出了做好的菜。

从模块化架构到端到端架构，这样的变化有什么好处呢？蔚来智能驾驶研发副总裁任少卿对钛媒体App曾表达过，“真实世界是复杂的。越往后你会发现，你可以解决99%的问题，但就是这1%的问题解决不了。所以大家就希望说那我不定这个接口了，让网络自己学，让机器自己去定，这个的核心就是端到端，就相当于把前面和后面连起来，把接口干掉，能干掉很多事。”

辰韬资本投资经理刘煜冬对钛媒体App也表示，对于自动驾驶很多的“只可意会，不可言传”的长尾场景，像积水、汽油等不同的路况，端到端有很强的应对能力。并且，端到端可以让驾驶风格更加拟人化，表现得更像人类司机，比如遇到堵车的情况提前处理，训练模型会更像人类老司机。

图片来源：辰韬资本《端到端自动驾驶行业研究报告》

值得注意的是，在谈到端到端自动驾驶时，人们很容易将其与大模型的概念混淆在一起。刘煜冬坦言，实际上两者并不必然相关。

之所以会这样说，在于大模型更多关注模型的参数数量以及涌现能力，而端到端更多强调的是结构上的梯度可传导以及全局优化。目前的大模型为端到端实现提供了很好的可选方案，但是端到端并非必然基于大模型实现。

对于自动驾驶及具身智能领域的 “ 大模型 ”，往往不是传统意义上的 “ 大 ” 模型。这类大模型由于更多考虑了车端算力以及实时性要求的性质，很难达到和 NLP (Natural Language Processing) 或者通用 AI 领域同等的标准。如果不考虑英伟达规划 2025-2026 年量产的 Thor，目前车端算力较大的也只有几百 TOPS (Tera Operations Per Second)，这种算力水平远远无法满足动辄 10B 甚至上百 B 的大模型需求。

所以，自动驾驶领域的大模型都是小于 1B 的模型，这里所谓的 “ 大 ” 的定义更多的是相对于原来感知系统采用的几百万参数的小模型而言。

新旧势力押注，2025年量产

事实上，端到端并不是一个全新的概念。

2016年，英伟达就提出采用单个神经网络来实现端到端的自动驾驶。但由于结构设计过于简单，模型的规模也过小，这种方案仅能支持高速或者简单道路状况下的自动驾驶，且仅仅完成了小规模的demo验证。

直到2023年8月特斯拉公布FSD V12版本时提到引入了“端到端”技术，从此成为自动驾驶界最火热的概念。

国内的小鹏汽车紧跟一步。1月30日，何小鹏表示小鹏智驾未来将实现端到端模型全面上车。5月20日，小鹏汽车在北京举办“AI DAY”，宣布即日起开始向用户推送基于端到端大模型的智能驾驶和智能座舱系统。

4月24日，华为智能汽车解决方案发布会上，华为发布了以智能驾驶为核心的全新智能汽车解决方案品牌 —— 乾崑，并发布了采用端到端架构的ADS 3.0。据悉，在6月刚刚上市的享界S9已经首发搭载了ADS 3.0智驾系统。

蔚来则在4月公开了端云算力规模，并透露端到端方案会在今年年内发布。最近还有报道称，蔚来智驾研发部已经完成架构调整，要放弃业界沿用多年的“感知-决策-规控”的技术路线，这意味着蔚来将更明确地探索用端到端大模型实现高阶智能驾驶。

理想汽车也不甘落后。在2024中国汽车重庆论坛上，理想汽车董事长兼CEO李想透露，将向测试用户推送基于300万clips训练出的端到端+VLM自动驾驶体系。预计最早在今年年底、最晚明年年初，理想汽车将推出通过超过1000万clips训练出的更完善的自动驾驶体系，为用户提供监督型L3级自动驾驶体验。

新势力不断出牌，传统车企也在奋进追赶。4月15日，在长城汽车董事长魏建军的直播首秀中，新款魏牌蓝山车型搭载的端到端智驾方案就曾引发外界关注。

在这一块发力的除了蔚小理、长城等众多车企，还有小马智行、英伟达、元戎启行、商汤绝影等产业链企业。

去年，小马智行将感知、预测、规控三大传统模块打通，统一成端到端自动驾驶模型，目前已同步搭载到 L4 级自动驾驶出租车和 L2 级辅助驾驶乘用车。

2024北京车展前夕，吴新宙展示了英伟达自动驾驶业务从 L2 到 L3的发展规划，其中提到规划的第二步为 “ 在 L2++ 系统上达成新突破，LLM(Large Language Model，大语言模型)和 VLM(Visual Language Model，视觉语言模型) 大模型上车。

元戎启行、商汤绝影则是在北京车展上各自展示了端到端产品。前者展示的是即将量产的高阶智驾平台 DeepRoute IO 以及基于 DeepRoute IO 的端到端解决方案，后者推出的则是面向量产的端到端自动驾驶解决方案 “UniAD”。

至于端到端架构何时上车，辰韬资本发布的《端到端自动驾驶行业研究报告》表示，这一技术演进的时间进度可以参考国内企业追赶特斯拉BEV/Occupancy Network的进度。特斯拉在2021和2022年年底的AI Day上分别公布了BEV和Ocuupancy Network的技术架构，而国内车企开始OTA基于BEV/Occupancy Network的功能普遍在2023-2024年，与特斯拉的研发进度差大概在1.5~2年。参考前述追赶进度，国内自动驾驶公司的模块化端到端方案上车量产时间可能会在2025年。

2023年9月中信证券发布研报预测：2025年起，端到端发展的提速将催化各级别自动驾驶功能渗透率大幅提升，我们据此更加乐观地预测，高速NOA渗透率至2026年将超过30%，城市 NOA渗透率超过 10%。

数据、算力是入场券，也是挑战赛

头部车企、自动驾驶技术供应商都在跑步进场，但端到端的上车仍有极高难度。

首先，摆在国内厂商面前亟待解决的就是端到端训练的数据难题。毕竟端到端方案中的一体化训练需要通过足够多的数据训练，这样才能涌现出一些惊人的能力。

马斯克之前曾谈到过数据对自动驾驶模型的重要性：训练了100万个视频Case，勉强够用；200万个，稍好一些；300万个，就会感到Wow；到1000万个，就变得难以置信了。

除了数据量的差距，从这些难以计算的数据中，找出可以用于训练的有效数据，是另一个重要的挑战。

“老的数据要求的场景比较单一，复杂度低。深度学习的路线要求的场景分布会大很多，数据集的多样性要求更高。”恺望数据解决方案总监黄玉庆表示。

在他看来，目前自动驾驶数据的采集处理面临诸多挑战。首先，车厂的采集方案都不太相同，标准不一样。其次，路采的时候涉及到合规，如何脱敏并且上传到云端，需要合规的公司做支持，而提供这样合规服务的公司并不是很多。再次，数据管理平台这部分国内并不完整，比如云端做大批量训练和计算时怎样进行清洗、拆、剪辑、标注。

面对数据量、数据标注、数据质量和数据分布等多维度的挑战，业内有一种说法是：建立数据共享平台。

对此，极佳科技工程负责人毛继明表示，数据共享的价值毋庸置疑，但要谨慎乐观。“数据共享背后是数据交易和数据价值的共识，买方和卖方很难达成共识。生成的好坏对于训练效果的影响也会影响共识，需要政府推动。另外也可以出台国标或法律。”

辉羲智能市场副总裁刘奇也表示，众多主机厂的痛点，不是每家主机厂都能投这么多钱把数据采集起来。对于数据采集统一化有很高的要求，各家技术方案都不一样。另外，商业上的收益会是影响闭环更大的因素。

即便解决了数据采集问题，这也只是第一步，算力也是很大的限制。

在2024 Q1财报电话会上，特斯拉表示，公司已经有35000张H100GPU，并计划在2024年内增加到85000张H100以上，达到和谷歌、亚马逊同一梯队。

在国内，大部分研发端到端自动驾驶的公司目前的训练算力规模在千卡级别，随着端到端逐渐走向大模型，训练算力将显得捉襟见肘。

理想汽车总裁、总工程师马东辉在理想汽车今年第一季度财报电话会上坦言，特斯拉“端到端大模型”需要大量的数据和训练算力，“这不是所有车企都有能力和资源做到的”。

余承东也发表过类似看法，他曾自信地表示，“国外就是特斯拉，国内就是华为。”他认为，在智驾上会强者越强，一步领先就步步领先。投入大，成本高，一般企业根本投入不起。

据悉，华为乾崑ADS 3.0在算力方面达到3.5E FLOPS（注：FLOPS指每秒执行的浮点运算次数，1E FLOPS即100亿亿次），训练数据量已达日行3000万公里。

小鹏汽车为此给出过明确的数字：2024年将投入35亿元用于智能研发，并新招募4000名专业人才，今后每年还将投入超过7亿元用于算力训练。

特斯拉则是计划2024年底前对DOJO超算中心投资超过10亿美元，以提升总算力至10万PFLOPS。

显然，要想把端到端做好并不容易，需要巨大的车队、巨大的算力、非常长时间在安全领域的浸润。这场以“端到端”为中心的拼杀还在继续，角力的烈度仍在加剧。接下来，我们更想观察的是拨开营销的迷雾，端到端的真相到底会是什么。

（本文首发于钛媒体App 作者｜韩敬娴）