2023年8月,特斯拉全自动驾驶系统FSD V12版本问世。此次迭代最与众不同的升级是,用上了所有车企都未曾尝试过的端到端架构。特斯拉也由此成为第一家成功量产端到端技术架构的车企。
有特斯拉引路,各大车企纷纷拥抱端到端,全面转向基于端到端大模型的自动驾驶路线。今年5月,小鹏率先宣布端到端大模型上车;蔚来也在前不久宣布转向端到端研发,为此专门成立了大模型研发部门。
当下,不管研发层面是否达到端到端的要求,各大车企在宣传层面都争先恐后地“站队”端到端。一时间,小鹏、蔚来、小米、极越、智己、广汽、长城、极氪等,都表态会实现端到端上车。端到端俨然成为车企争抢自动驾驶第一梯队的最佳例证。
最近,理想汽车也宣布要实现端到端技术架构上车。在智能驾驶夏季发布会上,理想汽车宣布将于7月内向全量理想AD Max用户推送“全国都能开”的无图NOA。同时,理想汽车还发布了由“端到端模型+VLM视觉语言模型+世界模型”组成的全新自动驾驶技术架构。但没有说明何时实现量产,只表示已开启了新架构的早鸟计划。
那么,理想汽车的端到端技术架构与其他家相比,有何不同?
什么是“端到端”?
要理解理想汽车的端到端技术架构,首先需要弄明白什么是端到端。
和传统自动驾驶相比,端到端技术将整个自动驾驶过程看作一个整体,通常使用一个深度学习模型(如神经网络)来直接从传感器数据(例如摄像头图像)映射到车辆控制指令(如转向、加速、刹车)。这个方法简化了系统的设计和集成,因为所有的功能都在一个统一的模型中实现。
端到端方法需要依赖大量的训练数据来训练深度学习模型,通过训练模型学习从环境感知到控制指令的直接映射关系。
作为比较,依靠传统方法实现自动驾驶的主要路径是,将自动驾驶系统分解为多个独立的模块,每个模块负责特定的任务。例如,感知模块负责识别和追踪物体,决策模块负责规划路径,控制模块负责执行驾驶指令。与端到端主要靠数据驱动不同,传统方法主要靠规则和算法驱动,即结合规则基础的方法(如规则引擎、决策树)和机器学习算法,通过各个模块的协作来完成自动驾驶任务。
以上是实现自动驾驶方法论中端到端和传统方法在底层设计上的不同之处。它们在实现自动驾驶的处理方式上也显著不同。
端到端自动驾驶直接将传感器数据(如摄像头图像)输入到神经网络中,模型通过训练学习如何将这些输入数据转化为驾驶控制指令。简单理解就是,神经网络在端到端模型中通常包含了感知、决策和控制的功能,决策过程较为一体化。
而传统自动驾驶的数据经过多个独立的模块处理,例如感知模块首先识别环境中的物体,然后传递给决策模块进行路径规划,最后控制模块将决策结果转化为实际的控制命令。它的显著特征是分步决策,就是每个模块的输出通常会传递给下一个模块,这种分层处理有助于在每个步骤中进行细化和调整。
二者的不同也反映出了各自的优缺点。
端到端自动驾驶的优点是极大精简了系统,减少了系统的复杂性,因为所有功能都在一个统一的模型中实现。端到端的另一个优点是拥有较强的自适应能力,深度学习模型能够通过大规模的数据学习复杂的环境模式,可以适应不同的驾驶条件和环境变化。这也是端到端方法更容易实现拟人驾驶的主要原因。
但端到端也有缺点。首先是需要海量的标注数据来训练模型。其次是可解释性差,因为深度学习模型通常被认为是“黑箱”,难以解释为什么做出某个决策。还有一个缺点是错误和故障的调试可能较为困难,因为模型的决策过程较为复杂。
相较端到端,传统自动驾驶的优势是模块化设计让系统的每个部分可以独立开发和优化,便于调试和维护。此外还具有透明性优势,因为每个模块的功能和决策过程较为明确,有助于理解系统行为。
传统自动驾驶的缺点则是各个模块之间的集成和协调较为复杂。此外灵活性也比较低,系统的适应能力不如端到端模型,因为需要针对每个模块进行细化调整。
可以看到,端到端在技术上具有前瞻性,它利用了深度学习和大数据来实现更智能的驾驶决策。更符合当下AI人工智能时代人们对技术的期待。
但实现端到端是有门槛的,首先需要海量的数据,这对一些没有卖出多少智能电动车的企业来说是一个瓶颈。此外端到端需要投入大规模算力来训练模型,这是一项烧钱的投入。
马斯克曾表示,特斯拉今年将在综合训练和推理人工智能方面投入100亿美元,后者主要用于汽车。“任何一家公司如何不能达到这一水平的投入,就无法参与竞争。”马斯克说。
可见,“上马”端到端自动驾驶,不是每家企业都能“玩”得起的。那么,理想汽车是如何构建自己的端到端自动驾驶技术架构的?
理想汽车的“端到端”
此前在6月8日的重庆论坛上,理想汽车创始人、董事长兼CEO李想就专门预热过理想基于端到端方法的自动驾驶技术架构。李想当时表示,最早今年年底、最晚明年年初,将推出“端到端+VLM 视觉模型+可验证的世界模型”的理想自研自动驾驶技术。
并明确表示,在理想车型现有的计算平台上,带有监督的L3级的自动驾驶,可以百分百实现。李想本人还表示,随着技术的演进和算力的增强,无监督的L3自动驾驶在3年内一定能够实现。
那么,李想承诺最晚明年初向用户推出的基于端到端自动驾驶功能,是如何构建的?
和特斯拉实现自动驾驶全程使用端到端方法不同,理想的汽车自动驾驶技术架构由三部分构成:端到端、VLM视觉模型和世界模型。
为何不直接全程使用端到端?理想汽车的考虑是,端到端的泛化能力(在不同场景和条件下的表现)如传统的分层设计方法,因为模型可能会过于依赖训练数据中的特定模式。考虑到中国的复杂路况,仅有端到端是不够的。
理想汽车构建自己的端到端自动驾驶的启发来源是一本书,这本书是诺贝尔经济学奖得主丹尼尔·卡尼曼写的《思考,快与慢》。这本书将人类的思维归纳为两大思考模式:系统1和系统2。系统1基于经验和习惯快速做出决定,特点是不费力;系统2是面对复杂和未知情况,需要运用思维推理能力,特点是要动用到注意力去做费力的心智活动,包括复杂的计算。简单理解就是,系统1和系统2互相关联和协作,帮助人类作出所有决策。
该理论对应到驾驶行为上是,系统1,善于处理简单任务,是人类基于经验和习惯形成的直觉,足以应对驾驶车辆时95%的常规场景。系统2,是人类通过更深入地理解与学习,形成的逻辑推理、复杂分析和计算能力,在驾驶车辆时用于解决复杂甚至未知的交通场景,占日常驾驶的约5%。系统1和系统2相互配合,分别确保大部分场景下的高效率和少数场景下的高上限,成为人类认知、理解世界并做出决策的基础。
理想汽车基于快慢系统理论形成了自动驾驶算法架构的原型。系统1由端到端模型实现,具备高效、快速响应的能力。端到端模型接收传感器输入,并直接输出行驶轨迹用于控制车辆。系统2由VLM视觉语言模型实现,其接收传感器输入后,经过逻辑思考,输出决策信息给到系统1。
端到端模型和VLM视觉语言模型构筑了理想自动驾驶的能力。端到端可以应对日常大部分的场景,VLM视觉语言模型则解决极端场景等泛化问题,以及为端到端兜底。但是光有端到端和VLM视觉语言模型,还不够。
因为端到端和LM视觉语言模型都是“黑盒子”属性。它们的内部决策机制复杂且难以解释。即使模型在某些测试环境下表现良好,但也很难完全理解和预测它在所有未知情况中的行为。
对此,理想从Sora视觉模型中找到原理,结合重建和生成两种技术路径,构建一个符合真实规律的新场景,让理想的车型在其中考试,用于评价自动驾驶系统在各种条件下的适应能力,以此保证在真实驾驶环境中的安全可靠。
总结来看,理想自研的这套拟人化的端到端自动驾驶的工作原理是,端到端相当于人的系统1,解决日常95%的驾驶场景;VLM视觉语言模型相当于人的系统2,解决5%的驾驶场景,提供兜底和泛化能力;再应用一个生成式的小视觉模型对自动驾驶能力进行考试。三个环节形成了理论上的自动驾驶安全闭环。
但需要指出的是,理想汽车的端到端自动驾驶目前还停留在PPT阶段,何时能实现量产,还存在不确定性。
哪里都能开的无图NOA
不过,尽管端到端自动驾驶还处于PPT阶段,但理想汽车的“无图NOA”推送进度总算赶上头部友商了。在夏季智能驾驶发布会上,理想汽车发布了将于7月内推送的OTA 6.0 版本,带来了用户心心念的无图NOA。这次智驾升级将覆盖理想L9/L8/L7/L6 以及MEGA的ADMax车型,惠及超过24万名用户。
完成升级后,理想汽车将成为华为、小鹏、蔚来之后,第四家拥有这一能力的厂商。理想汽车的无图NOA升级了四大重要能力,分别是哪里都能开、绕行丝滑、路口轻松过和带给用户的默契感和安心感。
值得说明的是“哪里都能开的功能升级”。此前实现高级别辅助驾驶,需要对一些信息进行提前验证,就像一个学生带着一本参考书去考试,在考试过程中需要不断翻阅参考资料,如果遇到参考书上也没有的习题,那可能就无法进行答题了。但如果学生自身能力不断提高,以后就能实现不带参考书也能考试了。
理想汽车的这次升级摆脱了对先验信息的依赖,背后逻辑就是辅助驾驶自身能力提升了,比如对道路结构的了解能力提升了。得益于此,只要有导航覆盖的范围,这次升级过后的理想无图NOA(导航辅助驾驶)均可去。不论是城市还是乡镇道路都能用,甚至是胡同窄路和乡村小路也能用。
此外,理想汽车7月内推送的OTA还升级了AEB(自动紧急制动)和 AES(自动紧急转向)功能。比如,在高速行驶遇到前方车辆急刹时,部分情况下即便触发AEB也有可能撞上去。这时候,此次升级的AES就能被及时触发,自动进行紧急转向,以避让前方目标。
另一个值得说明的升级是,在低速场景下,比如在复杂停车场,用户在停车过程中很可能会剐蹭。这次升级的全方位低速AEB功能,可以在这些情况下自动刹停,避免剐蹭。
可以看到,无图NOA的到来,缩小了理想汽车和头部智驾厂商的距离,甚至也有了可以宣布进入第一梯队的底气。而基于端到端方法的自动驾驶技术架构,则是理想能否在第一梯队站稳脚跟的考验。如果真如李想所说最晚明年第一季度实现,那么理想汽车端到端能力还停留在PPT上的说法,就不攻自破了。(本文首发于钛媒体App,作者|王瑞昊,编辑|张敏)
根据《网络安全法》实名制要求,请绑定手机号后发表评论