对话理想智驾副总裁郎咸朋：端到端之后，智驾还能拼什么？

理想汽车智能驾驶研发副总裁郎咸朋

新能源汽车的下半场，智能化果然是主旋律。价格战之外，各家智驾能力的比拼，也成为抢占用户心智的新战场。

作为造车新势力的代表之一，理想在7月份月销过5万辆，去年营收超千亿，销量上已经实现了“遥遥领先”，但在智驾上的动作一直并不激进，或者可以有有些保守。

那么，作为智驾上的“差生”或者说“后进生”，理想接下来的智驾策略是什么？为什么大家都在切入端到端？现在爆火的端到端智驾新故事，理想又会如何来讲？端到端之后，智驾还能拼什么？

近日，钛媒体App与理想智能驾驶研发副总裁郎咸朋有了一次深入的沟通，对于理想的智驾以及端到端，也有了全面的了解。

快速迭代不是“Follow”别人

众所周知，理想在造车新势力里面，智驾并不是其标签。随着销量稳定上来，智能化开始成为新能源汽车主要竞争高地，理想也开始加码在智驾领域的布局和投入。

有人说，理想拿出端到端+VLM大模型的智驾技术，意在追赶特斯拉、华为的智驾能力。

对此，郎咸朋表示，“我们看问题就看本质，表面上看起来我们不停地在迭代，或者说跟别人学，或者自己探索，但实际上我们不是一个专门follow别人的公司，我们有自己对这个技术和对产品的本质理解。”

那么，问题来了，端到端到底是什么？其实就是End-to-End Deep Learning（端到端深度学习），简言之，就是要建立一个完整的学习系统，直接从原始数据中不断学习，并生成所需的输出，不需要人为将任务分解成多个中间步骤。

在简单一点来理解，就是采用端到端的这套智驾方案，通过不断给它喂养数据，它会自己思考学习成长，不断长大变强。这也是为什么大家现在都在追逐端到端智驾到根本原因。

据郎咸朋介绍，去年一年，理想做了三次技术的研发迭代，最先用的都是NPN神经地图先验（‌Neural Map Prior）这种带有场景的方案，然后又转换到无图的方案，最后才迭代到现在的端到端方案。

如此频繁地迭代技术路线，不断地推倒重来，是否会造成智驾能力的落后？

郎咸朋认为，从本质上看，无论是NPN（神经先验网络）还是重图的方案，它最大的问题是只要你用图你就做不了全国，想要解决它，那就只能做无图，所以就切到无图了。但不管是分段式，还是模块化的无图方案，它都有上限在哪，都还有人的规则在里面，无法做到非常拟人的驾驶体验。

“理想并不是为了做端到端而去做端到端，而是把无图、有图这些技术方案全部都做完一遍，领悟到这些技术特点之后，才坚定地选择下一步要走端到端这套方案。”郎咸朋说道。

翻译一下就是，理想其实也一直在思考如何实现自动驾驶，如何让当下的高阶辅助驾驶有更好的体验，在技术上经过不断地探索之后，发现原来的方式是无法真正做到自动驾驶，这也是为什么后面在端到端上有了系统1+系统2的思考。

在郎咸朋看来，端到端最大的改变不是一个模型还是两个模型的问题，而是从端到端开始，才真正地用人工智能的方式去做自动驾驶。之前的串联式的端到端、分小模块的这种做自动驾驶的方式，其实本质上它还是一个产品，更偏传统一点的产品研发思路。

怎么来理解呢？就是原来做自动驾驶的思路，是先定义需求，然后根据需求来拆解成很多场景，场景再拆分为很多的研发模块，最后用人制定的规则去实现，这里面可能用到小模型。研发出来之后，再根据场景去做测试评价，有问题再改，没问题就交付。

在这个过程中，会有哪些问题呢？

如果场景有限，比如高速NOA场景，这种道路结构比较简单，但扩展到城市之后，它的场景就出现了爆炸式的变化，跟高速场景完全不一样。如果继续用以前的方式去设计场景、去设计规则、去实现验证，这里面的每一步就会遇到很大挑战。

因为场景是无穷无尽的，一旦还用原来的方式去做自动驾驶，那自动驾驶的能力边界就显而易见了，只能按照你的设计达到某种能力，而超出能力之外的东西，它无法做到。

简单来说，按照原来用规则来做智能驾驶的开发思路，必须要在一个确定性的环境下来研发。即使问题比较复杂，也想把它拆解得非常确定，然后再去研发做测试。而自动驾驶是没法用规则式来做的。

郎咸朋对此的理解是未来的自动驾驶，我们面临的是一个不确定的变化的复杂的世界，如果还用一些确定性的模式去做这个事情，那就肯定是有问题的。

“所以从端到端开始，它的变化并不是说一个模型、两个模型这么简单，而是它整个的思维，就是研发的流程和方式发生了巨大的改变，这里面没有任何的规则，我能做的是喂给他高质量的数据，再加上训练提升模型的能力，让它能做出更好的规划和决策。”郎咸朋总结道。

智驾团队规模不会超两千人

端到端的流行，或者说人工智能的快速发展，让智驾领域的研发人才也开始出现了变化。

端到端这套方案，让整个研发流程变得相对简单了，主要就是挑选数据、训练模型、评估模型、世界模型。

理想的这套智驾方案是“端到端+VLM+世界模型”，其中最大的特点是采用了双系统的理论，快系统做出及时的处理响应，慢系统对应复杂的思考逻辑判断，双系统共同地组成了人类认知和思维的机制。

具体来看，理想的这套智驾方案，其系统一就是快系统，应用端到端模型来实现，主要是挑选数据、训练数据；系统二则是慢系统，采用VLM的视觉语言大模型来实现，主要是其能像人一样的思考能力，更好理解复杂道路情况，应对未知场景。经过预研和研发，目前理想的这两套系统都已实现量产上车。

世界模型，在理想内部称其为系统三，它是一个考试系统，系统一+系统二的能力由系统三去评价和认证。

原来自动驾驶系统的评价与测试，都是由人来执行完成的，不管是跑大的路测还是跑场地的测试都是由人去评价的，但人是评价不过来的。而系统三则能够取代人去考核系统一和系统二的能力，通过考核之后，就迭代上线，然后进入下一轮的考核。

流程变简单了，相对应需要的人也变少了。郎咸朋坦言，除了研发这些系统平台的过程需要人，其实并没有很多人参与到实际的一些东西上来，会大大减少人的使用，确实用不了那么多人。

“我们可能会比特斯拉现在的人多一些，但是也不会达到一两千人的规模。”郎咸朋说道。

实际上，理想智能驾驶研发部门的人员数量，相对蔚来、小鹏、华为等是最少的，据相关数据统计，截至今年5月，华为、小鹏、蔚来智驾团队人数分别超过7000人、3000人和1300人。而根据媒体的一些报道，截至6月初，理想智驾部门员工总人数已被削减到了800人以内。

不过，自动驾驶最重要的是什么？是人才与资金吗？郎咸朋的回答是，长期来看，算力和数据都很重要，但前期对人才这块，算法更重要。

在他看来，没有数据，将来算法的训练、验证，都是没有基础的。但在模型迭代的基础上，最重要的方式是怎么去找到更优质的数据，这个数据除了量要足够大，质量也要足够好。

端到端之后，智驾还能拼什么？

当大家都开始做端到端，站在了同一起跑线上，那么，智驾还能拼什么？

在郎咸朋看来，真正到了人工智能时代，大家其实就拼两件事，一是你有没有足够多的高质量的数据；二是你有没有与之相匹配的充足的训练算力的集群。

总而言之，自动驾驶到最后拼的就是算力和数据，但这两件事，门槛都非常高。如果企业的资金储备不足以支撑每年训练的花费，那就不可能玩到后边的L3或L4；如果车企的这个车的保有量不够多，数据其实也无法支撑它的训练需求。

据郎咸朋透露，目前理想自动驾驶每年投在训练花费上是10亿人民币，预估将来花费要到每年10亿美金。

郎咸朋指出，“这只是训练的算力，还不包括其他的人员各种费用。如果未来你一年拿不出10亿美金来做训练，可能将来会在自动驾驶的竞争当中被淘汰。”

理想L系列产品都是套娃，但套娃对于自动驾驶来说，郎咸朋认为是有极大的好处，所有的摄像头规格和安装的位置都是一致的，数据都可以复用。

但有的厂商，它的产品可能有轿车、SUV等，传感器可能也都不太一样，对于这些厂商来说，数据的复用确实会是一个问题。

而关于智驾，郎咸鹏认为，一方面要有远期的考虑和探索，另一方面也要有现在的交付和产品迭代。对于公司来说，智驾是一个产品。公司做任何一个产品，目的还是为了盈利，为了去获得更好的现金流，更好的利润，从而让企业有更好的发展。

如何证明自己的智驾能力是行业第一梯队？在郎咸朋看来，“用户实打实地掏钱买你，我觉得这是最有说服力的。最终还是要看搭载AD max车型的销量，这将决定理想的智驾能力是不是在市场上领先，这是最硬核的指标。”

其实，理想AD PRO、AD max两款产品，价格仅相差3万元，主要差别就在智能驾驶的硬件和功能上，其他都一样。

简言之，对于郎咸朋来说，如果在理想的总销量中，搭载高阶智驾版本的AD max车型占比较高，那就说明理想的智驾做得还是成功的。

这样来看，后面车企在智驾上的卷，还是会回归到卷销量上。只有越来越多的用户选择智驾版，才能证明你的智驾功能是做得真的好用。如果用户都不选智驾版，即便真的做得很好，又如何来证明呢？

毕竟，智驾能力到底强不强，不是谁的嗓门大谁就强，还是需要拉出来遛遛才知道。（本文首发于钛媒体App，作者｜张敏）