新能源汽车的下半场,智能化果然是主旋律。价格战之外,各家智驾能力的比拼,也成为抢占用户心智的新战场。
作为造车新势力的代表之一,理想在7月份月销过5万辆,去年营收超千亿,销量上已经实现了“遥遥领先”,但在智驾上的动作一直并不激进,或者可以有有些保守。
那么,作为智驾上的“差生”或者说“后进生”,理想接下来的智驾策略是什么?为什么大家都在切入端到端?现在爆火的端到端智驾新故事,理想又会如何来讲?端到端之后,智驾还能拼什么?
近日,钛媒体App与理想智能驾驶研发副总裁郎咸朋有了一次深入的沟通,对于理想的智驾以及端到端,也有了全面的了解。
快速迭代不是“Follow”别人
众所周知,理想在造车新势力里面,智驾并不是其标签。随着销量稳定上来,智能化开始成为新能源汽车主要竞争高地,理想也开始加码在智驾领域的布局和投入。
有人说,理想拿出端到端+VLM大模型的智驾技术,意在追赶特斯拉、华为的智驾能力。
对此,郎咸朋表示,“我们看问题就看本质,表面上看起来我们不停地在迭代,或者说跟别人学,或者自己探索,但实际上我们不是一个专门follow别人的公司,我们有自己对这个技术和对产品的本质理解。”
那么,问题来了,端到端到底是什么?其实就是End-to-End Deep Learning(端到端深度学习),简言之,就是要建立一个完整的学习系统,直接从原始数据中不断学习,并生成所需的输出,不需要人为将任务分解成多个中间步骤。
在简单一点来理解,就是采用端到端的这套智驾方案,通过不断给它喂养数据,它会自己思考学习成长,不断长大变强。这也是为什么大家现在都在追逐端到端智驾到根本原因。
据郎咸朋介绍,去年一年,理想做了三次技术的研发迭代,最先用的都是NPN神经地图先验(Neural Map Prior)这种带有场景的方案,然后又转换到无图的方案,最后才迭代到现在的端到端方案。
如此频繁地迭代技术路线,不断地推倒重来,是否会造成智驾能力的落后?
郎咸朋认为,从本质上看,无论是NPN(神经先验网络)还是重图的方案,它最大的问题是只要你用图你就做不了全国,想要解决它,那就只能做无图,所以就切到无图了。但不管是分段式,还是模块化的无图方案,它都有上限在哪,都还有人的规则在里面,无法做到非常拟人的驾驶体验。
“理想并不是为了做端到端而去做端到端,而是把无图、有图这些技术方案全部都做完一遍,领悟到这些技术特点之后,才坚定地选择下一步要走端到端这套方案。”郎咸朋说道。
翻译一下就是,理想其实也一直在思考如何实现自动驾驶,如何让当下的高阶辅助驾驶有更好的体验,在技术上经过不断地探索之后,发现原来的方式是无法真正做到自动驾驶,这也是为什么后面在端到端上有了系统1+系统2的思考。
在郎咸朋看来,端到端最大的改变不是一个模型还是两个模型的问题,而是从端到端开始,才真正地用人工智能的方式去做自动驾驶。之前的串联式的端到端、分小模块的这种做自动驾驶的方式,其实本质上它还是一个产品,更偏传统一点的产品研发思路。
怎么来理解呢?就是原来做自动驾驶的思路,是先定义需求,然后根据需求来拆解成很多场景,场景再拆分为很多的研发模块,最后用人制定的规则去实现,这里面可能用到小模型。研发出来之后,再根据场景去做测试评价,有问题再改,没问题就交付。
在这个过程中,会有哪些问题呢?
如果场景有限,比如高速NOA场景,这种道路结构比较简单,但扩展到城市之后,它的场景就出现了爆炸式的变化,跟高速场景完全不一样。如果继续用以前的方式去设计场景、去设计规则、去实现验证,这里面的每一步就会遇到很大挑战。
因为场景是无穷无尽的,一旦还用原来的方式去做自动驾驶,那自动驾驶的能力边界就显而易见了,只能按照你的设计达到某种能力,而超出能力之外的东西,它无法做到。
简单来说,按照原来用规则来做智能驾驶的开发思路,必须要在一个确定性的环境下来研发。即使问题比较复杂,也想把它拆解得非常确定,然后再去研发做测试。而自动驾驶是没法用规则式来做的。
郎咸朋对此的理解是未来的自动驾驶,我们面临的是一个不确定的变化的复杂的世界,如果还用一些确定性的模式去做这个事情,那就肯定是有问题的。
“所以从端到端开始,它的变化并不是说一个模型、两个模型这么简单,而是它整个的思维,就是研发的流程和方式发生了巨大的改变,这里面没有任何的规则,我能做的是喂给他高质量的数据,再加上训练提升模型的能力,让它能做出更好的规划和决策。”郎咸朋总结道。
智驾团队规模不会超两千人
端到端的流行,或者说人工智能的快速发展,让智驾领域的研发人才也开始出现了变化。
端到端这套方案,让整个研发流程变得相对简单了,主要就是挑选数据、训练模型、评估模型、世界模型。
理想的这套智驾方案是“端到端+VLM+世界模型”,其中最大的特点是采用了双系统的理论,快系统做出及时的处理响应,慢系统对应复杂的思考逻辑判断,双系统共同地组成了人类认知和思维的机制。
具体来看,理想的这套智驾方案,其系统一就是快系统,应用端到端模型来实现,主要是挑选数据、训练数据;系统二则是慢系统,采用VLM的视觉语言大模型来实现,主要是其能像人一样的思考能力,更好理解复杂道路情况,应对未知场景。经过预研和研发,目前理想的这两套系统都已实现量产上车。
世界模型,在理想内部称其为系统三,它是一个考试系统,系统一+系统二的能力由系统三去评价和认证。
原来自动驾驶系统的评价与测试,都是由人来执行完成的,不管是跑大的路测还是跑场地的测试都是由人去评价的,但人是评价不过来的。而系统三则能够取代人去考核系统一和系统二的能力,通过考核之后,就迭代上线,然后进入下一轮的考核。
流程变简单了,相对应需要的人也变少了。郎咸朋坦言,除了研发这些系统平台的过程需要人,其实并没有很多人参与到实际的一些东西上来,会大大减少人的使用,确实用不了那么多人。
“我们可能会比特斯拉现在的人多一些,但是也不会达到一两千人的规模。”郎咸朋说道。
实际上,理想智能驾驶研发部门的人员数量,相对蔚来、小鹏、华为等是最少的,据相关数据统计,截至今年5月,华为、小鹏、蔚来智驾团队人数分别超过7000人、3000人和1300人。而根据媒体的一些报道,截至6月初,理想智驾部门员工总人数已被削减到了800人以内。
不过,自动驾驶最重要的是什么?是人才与资金吗?郎咸朋的回答是,长期来看,算力和数据都很重要,但前期对人才这块,算法更重要。
在他看来,没有数据,将来算法的训练、验证,都是没有基础的。但在模型迭代的基础上,最重要的方式是怎么去找到更优质的数据,这个数据除了量要足够大,质量也要足够好。
端到端之后,智驾还能拼什么?
当大家都开始做端到端,站在了同一起跑线上,那么,智驾还能拼什么?
在郎咸朋看来,真正到了人工智能时代,大家其实就拼两件事,一是你有没有足够多的高质量的数据;二是你有没有与之相匹配的充足的训练算力的集群。
总而言之,自动驾驶到最后拼的就是算力和数据,但这两件事,门槛都非常高。如果企业的资金储备不足以支撑每年训练的花费,那就不可能玩到后边的L3或L4;如果车企的这个车的保有量不够多,数据其实也无法支撑它的训练需求。
据郎咸朋透露,目前理想自动驾驶每年投在训练花费上是10亿人民币,预估将来花费要到每年10亿美金。
郎咸朋指出,“这只是训练的算力,还不包括其他的人员各种费用。如果未来你一年拿不出10亿美金来做训练,可能将来会在自动驾驶的竞争当中被淘汰。”
理想L系列产品都是套娃,但套娃对于自动驾驶来说,郎咸朋认为是有极大的好处,所有的摄像头规格和安装的位置都是一致的,数据都可以复用。
但有的厂商,它的产品可能有轿车、SUV等,传感器可能也都不太一样,对于这些厂商来说,数据的复用确实会是一个问题。
而关于智驾,郎咸鹏认为,一方面要有远期的考虑和探索,另一方面也要有现在的交付和产品迭代。对于公司来说,智驾是一个产品。公司做任何一个产品,目的还是为了盈利,为了去获得更好的现金流,更好的利润,从而让企业有更好的发展。
如何证明自己的智驾能力是行业第一梯队?在郎咸朋看来,“用户实打实地掏钱买你,我觉得这是最有说服力的。最终还是要看搭载AD max车型的销量,这将决定理想的智驾能力是不是在市场上领先,这是最硬核的指标。”
其实,理想AD PRO、AD max两款产品,价格仅相差3万元,主要差别就在智能驾驶的硬件和功能上,其他都一样。
简言之,对于郎咸朋来说,如果在理想的总销量中,搭载高阶智驾版本的AD max车型占比较高,那就说明理想的智驾做得还是成功的。
这样来看,后面车企在智驾上的卷,还是会回归到卷销量上。只有越来越多的用户选择智驾版,才能证明你的智驾功能是做得真的好用。如果用户都不选智驾版,即便真的做得很好,又如何来证明呢?
毕竟,智驾能力到底强不强,不是谁的嗓门大谁就强,还是需要拉出来遛遛才知道。(本文首发于钛媒体App,作者|张敏)
根据《网络安全法》实名制要求,请绑定手机号后发表评论