【「无人车特辑」栏目由播客《硅谷101》与钛媒体联合推出:盘点美国L4级无人车巨头们的策略;讨论争议中前进的视觉派Tesla;访谈中国无人车创始团队。钛媒体App为文字首发媒体。】
特斯拉引发的视觉派与激光雷达之争:选择它不是因为简单,而是因为难?
采访|泓君,文字|王晶
在电动车领域,特斯拉是全球市值最高的车企。它吸引大众关注的另一点是,是它的「自动驾驶技术」。
在2021年计算机视觉和模式识别会议上,特斯拉还公布了其超级计算机Dojo,超强的算力、大规模的数据收集以及雄厚的资金,背后是马斯克对自动驾驶的野心,他曾宣称,要在2020年实现「L5 完全自动驾驶」。
根据 SAE 对自动驾驶级别的划分,L5级别的自动驾驶意味着,车辆可以在任何情况下进行驾驶,车内乘客无需参与任何驾驶行为。当前无论是从技术还是从公认的分级标准来看,要达到L5级别的自动驾驶还有很长的路,特斯拉目前的自动驾驶只能算是L2.5。
与马斯克大肆宣传自动驾驶功能相悖的是,特斯拉频频发生的自动驾驶交通事故,也引发了对自动驾驶安全性以及视觉派与激光雷达派的争论。许多车企为了保障安全,选择了在传感器上做“加法”,车辆不仅搭载多种雷达,还有视觉派的摄像头。但作为视觉派坚定的支持者,马斯克却选择了做“减法”,甚至去掉了毫米波雷达。
人都会依靠自己的经验形成路径依赖。激光雷达与视觉派相争已久,马斯克是否选择了一条更难的路?
本期嘉宾 | 齐蕾,前上汽资本硅谷投资总监;刘冰雁,Kargo软件主管
接下来我们会出一系列的关于自动驾驶的节目,来盘点美国巨头Waymo、Cruise、Amazon、Tesla、Uber这些公司的无人车策略,也会有更多中国的无人车创始团队加入到我们的访谈中。我们一起看看,这个市场上最聪明的人和钱,到底在赌一个怎样的未来。
你将会听到:
【01:15】 特斯拉不是无人驾驶,而是L2.5的辅助驾驶
【03:29】 用户体验特斯拉:进步与恐慌
【10:03】 如何看待特斯拉去掉了毫米波雷达?
【14:50】 路径之争:视觉派与激光雷达之争是伪问题?
【24:04】 定义不明,自动驾驶的分级界限有待更新
【26:30】 特斯拉自动驾驶更安全吗?
【37:24】 无论是视觉还是激光雷达,实现全无人驾驶很遥远
【44:30】 特斯拉视觉识别上的进步:从2D到3D
【46:30】 人工智能的黑盒子
【50:23】 路线之争:我们选择它,不是因为简单,而是因为难
【音频收听地址】:无人车特辑 | 特斯拉自动驾驶到底怎么样?
01 特斯拉辅助驾驶的进步与体验
《硅谷101》:我们之前讨论Waymo、Cruise的无人驾驶,都是完全无人驾驶L4甚至是L5级的无人驾驶,准确来说特斯拉应该不算无人驾驶而是辅助驾驶。
齐蕾:现在很多车都有ADAS(Advanced driver-assistance systems)高级辅助驾驶系统,可以进行跟车,保持在两条线之间行驶,跟着线稍微拐弯。现在特斯拉的所有功能,都可以归为ADAS。
《硅谷101》:冰雁是特斯拉的老用户,也见证了特斯拉这几年自动驾驶的进步,可以聊聊你刚用特斯拉和现在使用感受上的区别?
刘冰雁:我最开始拿到车应该是2018年前后,近些年特斯拉进步很明显。最开始如果遇到开山路比较多弯,它就会放弃,但现在基本上到处都可以开了,包括高速和一些非高速地方。内测或半公开测试的一些版本基本上从家到公司都不需要接管,目前用户用到的版本,基本上是辅助驾驶。
现在通用的 Super Cruise也做得非常好,手都不用碰,特斯拉是如果你30秒手不碰方向盘,它一定会提醒你,之后就会让你靠边停车,要全权接管。
《硅谷101》:你是觉得现在特斯拉在上下高速方面已经比较顺畅。
刘冰雁:一方面是上下高速,一方面是在高速之间切换,有一些路它会告诉你这个转盘转不过去,你就需要接手,但是在能处理的范围内,它还是处理得相当不错的。
所以如果把它当作自动驾驶,是很危险的。但如果把它当做很好的辅助驾驶,对我来说,是真的离不开的东西。
我每天开车上班大概40分钟左右,如果没有这个功能的话,开车很累,但有了辅助驾驶,基本上全程我只要看路就可以,不需要随时准备反应。这条路我每天都在开,熟的路、熟的车、熟的软件,除非前面突然有辆车停下来,否则基本上都做得很好。
齐蕾:会有担心吗?特斯拉好像在辨别特殊车型上,如校车或大水泥车,比较差。
刘冰雁:对,这确实要注意,但特斯拉自动驾驶技术和其他公司不一样,我认为是UI上的区别,这是一个用户体验的问题,技术上的差距未必那么大。
在很长一段时间里,很多技术是靠毫米波雷达完成,很多家都做得不错,但他们没法告诉你,是否有看到前面车辆,所以前面出现车时,你一定会害怕。
特斯拉相较于传统汽车巨大的一个升级是它有个大屏幕,可以提供很多交互信息,如果能看到前面车辆,出现问题的可能性就小,即使技术差别不大,但这样的交互模式还是确实感觉好用了很多。
《硅谷101》:不管在大屏幕上有没有看到车,驾驶员还是要保持很高的专注力,观察自动驾驶开得如何。
刘冰雁:这实际上是另一个问题,激光雷达派还是视觉派的核心区别,是在Reception上。从这个角度来说,除非是软件写得太差,只要看到了,一般不会说看见了还撞上去。
02 去掉毫米波雷达
《硅谷101》:在5月份的时候,特斯拉把毫米波雷达去掉了,你们怎么看这件事情?
齐蕾:特斯拉现在有四款车,量产车拿掉了,剩下两款还是有的。
刘冰雁:之前认为有一种可能性是供货,很有可能会是这样的原因:对于小规模的车,他照样能供得上,但是对于大规模这个量产的话,为了不影响交货,他把毫米波雷达去掉了。
这个事情发生之后,又有几个消息可以对比看,第一是当时最开始特斯拉的所谓的Autopilot,应该是L1.5,是Mobileye提供的技术,后来被英特尔收购了Mobileye这家公司的技术,于是特斯拉跟Mobileye分道扬镳。
那时候特斯拉的自动驾驶技术,退步了相当多,我刚拿到车的时候,应该是退步还没追上的时候,有一些技术属于老车反而更好的。
《硅谷101》:为什么会退步?
刘冰雁:因为Mobileye专注做这一方面相当长时间,也有一些自己的专利。
《硅谷101》:退步是因为特斯拉和Mobileye掰了?
刘冰雁:这是很久以前的事儿了。但是一两年之内特斯拉就完全追上了,并不断有新功能出现。
这个角度来说,毫米波又出现非常类似的事情。刚开始这个事情发生的时候,车交货之后,他会发现定速巡航不能超过75英里,还有一些雨天夜晚会出现一些问题,但是最近的更新,已经把这些东西弥补的差不多了,这些事情上做的还是挺快。
《硅谷101》:毫米波雷达的作用是什么,它可以看多远?
齐蕾:应该是二三十米。
《硅谷101》:激光雷达是远的,毫米波雷达是近的,如果开高速的话主要是靠激光雷达。
刘冰雁:很多在之前出现的幽灵刹车事件,实际上是毫米波雷达造成的。往往出现在头顶上有个桥,之前认为是立交桥的影子会对视觉造成影响,后来更多的情况,他们是说立交桥本身对毫米波雷达产生了影响。
《硅谷101》:如果是这种情况,不管白天还是晚上,如果遇到立交桥的话,特斯拉的车在自动驾驶的过程中可能都会出现卡顿,或者急刹车。我在特斯拉论坛上看过的报告,晚上出现这种情况比较多,所以大家猜测是因为立交桥的影子。
刘冰雁:难道不是应该说,晚上发生的情况比较多,正是因为影子相对不强。因为当白天视觉比较确定的时候,视觉可能会占上风,这里面就涉及到传感器融合技术。
我们最终是在试图认识和理解这个世界,这属于测量问题。这个世界上不存在可测量的真值,因为测到的东西一定是不准的,所以在有一定偏差的情况下,几个偏差之间怎样融合?而一般意义上的传感器融合,是当它们的偏差在范围重合的情况下,可以进行融合的。
我们现在讨论的这种情况,可能出现的情况是,两个测量密度已经低到了没有融合的机会了,可能存在的问题是视觉如果没有看到这个立交桥,而雷达看到了这个立交桥,这是一个非常夸张的事情。前面突然出现一堵墙,这东西要怎么处理,两边最后会出现打架。
这就是为什么马斯克说,它这个东西在融合过程中反而会造成问题。如果视觉和毫米波雷达不一致的情况下,一般是毫米波雷达错了,这样的话干嘛还留着它。这个说法不是内部人士不好评判,但是从现在他们的车做到的效果来看,还真是有一些可能性。
齐蕾:这是你的一个推论。另外一个事实是,毫米波雷达有一个缺陷,当周围的毫米波雷达都在作用时,会有互相干扰的情况,激光雷达没有。
我不是技术,但是我周围所有做毫米波雷达的人,最关注的核心问题是当路上有100辆车,每个人都在开自动驾驶和毫米波雷达时,由于互相干扰,可能会有很严重的偏差。
《硅谷101》:这样说如果L4或L5自动驾驶成规模时,岂不是也会有互相干扰的问题。
齐蕾:对,这就是视觉派的合理之处,另外就是考虑怎么解决现在的短板。
因为我之前看过很多做新型毫米波雷达,会把频段变成不同的频段,可以去更小的避免互相干扰。
刘冰雁:他们可以用一些信息加载之类的办法,让它知道这是别人的车,或者通过别的技术来跳频,这是无线电中已经有成熟的技术了。现在是怎么在这样的设备中,把以前作为雷达技术或者探测的技术,变为用无线电类似的技术进行优化。
齐蕾:我觉得特斯拉还有很厉害的一点是,第一个提出fleet learning(车队学习网络)、neural network learning(神经网络学习)。
靠着所有特斯拉的车,去共享学习到的东西,只要我的车铺的够多,按道理来讲视觉会更精准,比如前两辆车看到了前面大卡车,可以给我的车预警一下,让我知道前面有个大卡车。如果真的能实现这一点,是很厉害的。
刘冰雁:我理解的fleet learning,应该不会试图用前两辆车的信号去做这件事。理想状态所有车都互联互通,信任对方的信息,相当于500米之外有个事情,大家一起减速,这非常美好。但在这个世界上,几乎永远不可能成功,因为总是存在作恶者的。
你要相信绝大部分人都是好人,但是总有坏人。因为我有朋友研究人工智能安全相关的内容,里面确实存在很多非常恐怖的问题。
特斯拉最大的优势是,它能落地;虽然它的水平跟Waymo有很大的差异,但是它有很多的车队数据,从这方面讲,它是有很大的可能性突破自动驾驶的。
齐蕾:还有它积累的数据是真实的发生在路上的数据,而不是在云里跑出来的模拟数据。
03 激光雷达派还是视觉派?
《硅谷101》:关于特斯拉,一直有一个讨论很热的问题,就是大家怎么看视觉派跟激光雷达派?
刘冰雁:相对于激光雷达来说,视觉的数据量级小很多。另一个好处是,相对于激光雷达,视觉可传输的数据量级要小很多,激光雷达即使有这样的规模,对于目前的网络条件来说,也没有办法收集这样的数据。
首先特斯拉可以有百万辆级的车,另一方面对于这些车的摄像头数据,目前有非常成熟的摄像头视频压缩技术,本身传输的话数据上量级要小很多。
《硅谷101》:视频有很成熟的数据压缩技术,我采访过的公司,在07-08年做视频在线教育的时候,没有办法做,因为他视频压缩技术达不到,网上卡,后来等视频技术成熟了,一批在线教育公司就做出来了。无人驾驶的出现,就是依赖于激光雷达能看的更远了,激光雷达行业还有待发展,因为视频成熟的压缩技术也经历了很多年。
刘冰雁:对,视频技术属于推动互联网发展的核心技术之一,所以确实发展会好一些。另外,做一个激光雷达或者L4-L5技术需要的算力,是做L2-L3技术或者做视觉的算力相比,是好几个量级上的差别。
我道听途说的,现在每一辆Waymo、Cruise这些厂商的自动驾驶车里,他们都相当于还是背着一个双路至强(Intel CPU)加8台GPU,市面上买的价钱至少要大概1万到2万美元,更不说存储成本。之前每天换硬盘,现在可能一次背了20块硬盘,隔几天换一次。
齐蕾:所以现在很多自动驾驶公司在做小巴,因为小巴的成本划得来,空间也大,可以塞计算设备进去,另外载的人多,里程数更高,算下来会划算很多。
同时我们期待,无论是英特还是Nvidia,尤其是Nvidia,得把这个事儿给做出来,一致去搞自动驾驶的芯片;如果芯片成本能降下起来,大小能变小,也是一个里程碑。
《硅谷101》:激光雷达的数据,比如像Waymo,是他们晚上回去,车都歇着的时候传输吗?
齐蕾:他们之前在做的时候,唯一的办法是,晚上把硬盘拿了出来,再拿到他们的机房,然后进行传输。5G到来会带来一些方便,但是它的数据量确实是比较大的。
刘冰雁:我觉得激光派和视觉派的争论可能是个伪问题,L5技术,现在看来还有点遥远。
齐蕾:所谓L5本身技术含量是非常高的,我们可能不会去定义是L5、L4还是L3,而是说真的应用起来应该是什么样的感觉。
刘冰雁:非常有道理,我确实一直觉得SAE(美国汽车工程师协会)的这套分级,现在看来值得推敲。
《硅谷101》:大家说特斯拉现在是L2的技术,L2和L3的区别在哪里?
刘冰雁:简单的说法是这样的:L2是人在开车;L3是车在开车,但人要负责;L4是车在开车,但车负责,也就是说L4是人不需要接管,L3人还需要接管。
齐蕾:L2和3其实界限没有那么大,就是程度的问题,比如手放在方向盘上面,L3是你可能可以停一下,但要回来一下,如果说离开30秒可以算2.5。
刘冰雁:绝大多数定速巡航或自动跟车都可以算L2,但特斯拉应该算是L2.5,到L3好像又没有到,分级其实是纯从产品的角度来定义,而不是从技术路线角度定义的。
从技术路线角度,你会发现L3到L4非常难,甚至可以说L4到L5都没有L3到L4难,现在的Cruise、Waymo也到不了完全L4,就是不需要人接管,这是很难做到的事情。一旦人可以不接管了,把它扩展到在一个城市都能用,在另一个城市也能用,可能反而比从L3到L4更容易。
齐蕾:回到刚才说的从一个城市到另一个城市,我觉得难度非常大,可能视觉派还不太一样,激光雷达的是必须得扫地图。
刘冰雁:激光雷达是依赖于高精地图的,没有地图的话,就不能这么去运作,特斯拉虽然很多地方不靠谱,但做视觉绝大部分体验还是很好的。
齐蕾:从用户体验和商业角度来讲,特斯拉的体验肯定是更好的。但是从一个车厂的安全和责任的角度来讲,大家愿意选择激光雷达,是因为认为激光雷达更安全更负责。
我自己对视觉不安的一点是,我很担心在它遇到一个没有见过的情况,要怎么做决定。
刘冰雁:激光雷达不会有同样的问题吗?它也有没有见过的东西。
齐蕾:它有,但至少它可以判断前面是一组障碍物,但对于视觉来讲,它不一定是障碍物,有可能那个东西很小,但可能会导致很大的事故。
刘冰雁:我之前在Oculus做的是,基于视觉建图与定位,用视觉,和一些非常简单的加速度、陀螺仪这样的传感器,这样是可以进行对深度和物体有相当不错的感知,相当于对与定位的感知。
因为双目视觉可以做深度,在运动过程中,即使不用传播视觉也可以做深度,更进一步就是人眼看很多事情也可以知道它大概的位置的深度,那么机器不见得会做得比人差,所以说深度感知,也就是说,知道前面到底是不是一堵墙,并不是那么难处理。
相反,激光雷达遇到反光或雪花,并不是那么准。
齐蕾:对,雨天,激光雷达会有很多问题。
刘冰雁:视觉上也可以做很多深度,这些不依赖于是否见过这个场景。
回到做深度定位这个问题上,我们找的是,连字母都算不上的小东西。你看到有两个非常小的点,原来离得很近,后来突然离得很远,就说明这个东西离你很近了。它并不依赖于认出这个东西本身,只需要知道一些从图像处理、甚至光学上几乎对人眼和人脑来说不可识别的一些东西,就可以提供非常好的深度的认知。
齐蕾:会不会出现的是一个活物,比如一个正在弯腰捡球的小孩,系统会误以为是个垃圾桶?
刘冰雁:不管是垃圾桶还是小孩都是不能撞的。
齐蕾:有意思的一点是,马斯克是坚定的视觉派,连毫米波雷达都可以拿掉,只相信视觉,但激光派就是,我们都上,我不仅有激光雷达,还有毫米波雷达和视觉。
《硅谷101》:激光雷达和视觉派的一个差异在于,不管激光雷达是否比人开车安全,对激光雷达派来说,要做的是降低总体事故率,不仅要比人更安全,还要让车的事故率降到最低,安全性提升到最高;而不是说达到了和人差不多的水准就可以了,他们不是这个标准。
刘冰雁:我们仔细深究的话,车一定比人自己更安全,这是一个简单的概率问题,人不是100%安全,车也不是100%安全,但只要不同时犯错,我们就是安全的。
但我们讨论不同传感器融合时,就不是直接这样的关系,不是说只要激光雷达看到了,或者视觉看到了,就一定不会出事,看到不代表不会出事,也可能看到了假的东西,于是做了错误的躲避,造成更多失误。
从这个角度来说,更多传感器不一定代表更好的精度,因为这是几个不同的传感器,它们之间没有典型的可以用统计的方法进行融合。
齐蕾:就是回到了传感器融合权重的问题。可能高速上传感器的权重更偏向激光雷达,在城区的话就更偏向视觉。
从车厂商业化角度来讲,之所以选择多传感器融合,是要两倍三倍的保险,这也是为什么行业里大部分车厂的商业化路径会选择多重保险。
另外,现在很多人想解决的问题是在高速公路上怎么可以看得更远,因为摄像头没有办法看到更远,这是个巨大的问题。如果我是卡车,在无法看到更远、制动又很慢的情况下,就会出事。
《硅谷101》:特斯拉的终极目标是不是要去成为Waymo的竞争对手?
刘冰雁:我的核心观点是,L5非常遥远,要达到L5技术,需要的人工智能技术相对现有技术还有一个代差,不是现在可以解决的一个问题。等到那个时间,当视觉比激光雷达有了更好的感知能力,我觉得不是问题。
L5在时间线上并不是非常近的,我一定程度同意马斯克的一个观点,激光雷达是作弊,相当于拿了一张开卷考试,拿了一张地图在做驾驶问题。他做的事,就是模仿人,人用肉眼可以开车,那么车也可以。激光雷达并没有提供比视觉在远期上来看,更多的东西。
04 争议安全性
《硅谷101》:上次我们讨论的一个结论是,自动驾驶更安全,但人类更聪明,如果这句话套用到特斯拉这个案例上,其实就不成立了。
刘冰雁:我不同意,在安全这个问题上,特斯拉就是一个新闻吸引器,不管是正面的负面的新闻都往它头上放。
《硅谷101》:所以你认为特斯拉的自动驾驶更安全?这是不是建立在正确使用的方法上?
刘冰雁:Yosemite有个说法是,造不出完美的防熊箱,最愚蠢的人和最聪明的熊之间的交集比人们想象的大得多,就是说总有人犯傻,总有人不要命。技术并不是核心问题,没有什么安全措施,防得住犯傻的人。
《硅谷101》:所以你的说法还是建立在,我们要普及技术,要在正确使用的情况下评判它是否安全。但问题在于,当一个人开车时,如果使用自动辅助驾驶系统,但要还有集中注意力观察,这是很难的,这是人性的问题。
刘冰雁:我非常同意,我想提两个点,第一,安全气囊在错误使用的情况下也非常危险;第二,我的体验是,之前开车4小时去滑雪,到场就已经很累不想滑了,但后来开特斯拉就觉得开车根本不是问题。
齐蕾:他的经历我也有,我开的不是特斯拉,是英菲尼迪。因为以前我自己开去洛杉矶,五六个小时很累,中间每两三个小时就要休息一次。但自从开了可以定速巡航的车,接触了更好的产品,就不会再退回到没有这个功能的产品。
这个体验可能在特斯拉身上更重。一旦体验了这个功能,我再也不会去买没有这个功能的车了。
《硅谷101》:所以你下一辆车打算买特斯拉了。
齐蕾:我有对电动车的里程焦虑,我开到中间的时候,可能要绕到一个根本不想去的地方充电,坐在里面坐半个小时。另外从消费者的角度来讲,我在新闻上天天看特斯拉出事儿,我的信任感没那么高。
刘冰雁:我想说的恰恰是另一方面的情况,特斯拉救了命是大家是看不到的新闻。
齐蕾:就像刚刚说的,人总是有特别傻,让你不理解的人,比如之前在北湾,有两个开特斯拉的人直接撞到了树上导致死亡,是因为他们俩都坐在后排。
也正是因为特斯拉如此高调宣传自动驾驶,导致很多人要去试试。
刘冰雁:特斯拉在全自动驾驶上的宣传,到后来已经到了笑话的程度了。马斯克说2016年底的时候要Coast to Coast全程是吧?现在已经这么多年过去了对吧?马斯克前两天还说下周就要发布。
齐蕾:他老说这些话,他不是明天就要去火星了吗?
刘冰雁:这些都是玩笑了,但我们开车中都会焦虑会走神,特斯拉可以在你走神的时候帮一把。如果你走神的时候没有人帮一把的话,很可能就真的出事了。
齐蕾:我有很大的两个感受,一是特斯拉用户非常热爱特斯拉,是发自内心的热爱。二是在我对车有了信任和依赖感时,作为司机我是不是会更加放松,导致我不愿意再关注在开车上,而这个车可能在一两年还没有达到质的飞跃的时候,我自己本身的心态却达到质的飞跃。
特斯拉有做什么事情让用户更警醒吗?
刘冰雁:如果手不在方向盘,它会很快各种提醒。
《硅谷101》:其实最开始马斯克谈自动驾驶的时候,大家不会去揪着马斯克问是在说L2的自动驾驶还是L4的,就都觉得是一个可以完全撒手的自动驾驶。
直到特斯拉自动驾驶发布好几年后,出了很多事故,他才说这只是辅助驾驶,大家开车时手得扶着方向盘,用户才意识到特斯拉并不是完全自动驾驶。我们之前说特斯拉不是技术问题,其实是一个宣传问题,这点非常重要。
刘冰雁:说到技术的发展,可以再往下延伸一点,科技最终是为了什么?不管是自动驾驶技术还是别的技术,除了科学家们的好奇心之外,我觉得更多的是为了拯救生命。Waymo是最先提出不能信任人,不做L3系统,只做L4L5的系统。
《硅谷101》:Waymo提出这个,是因为他们在做自动驾驶研发中,安全员在路测过程中发现,如果不开车,还要专注看前面有没有障碍,随时准备接管,这是一件反人性的事情。背景是在自动驾驶很不成熟,需要随时接管的情况下。
刘冰雁:在这个事情上我不同意他们的这种观点。实际上他们做的事情,可以说是为了自己手上不沾血,他们在杀掉很多沉默的人。
他们相当于是说,我的自动驾驶技术没有杀掉任何一个人;但是推迟了一个足够好的自动驾驶技术,广泛地进入市场中,实际上已经杀掉了很多人。
《硅谷101》:你认为即使在自动驾驶不成熟的情况下,也是比人开车更安全的?
刘冰雁:我想说的是,在人和自动驾驶一起开车的情况下,它一定比人开车更安全。
《硅谷101》:一起开车指的是,人还是集中注意力。
齐蕾:理论来讲可能是成立的,但对于个体来讲,你永远都不知道现实是什么样的,因为人的变化因素太大了。
刘冰雁:自动驾驶比人开的好应该没错,我就肯定没自动驾驶开的好。
齐蕾:人肯定是更相信自己,和自己比较熟悉的东西,以及自己过去的经历和判断。机器会做决定,但可能会出错,因为我们不知道里面的编码是什么,是谁在编码,也不知道机器是否纯洁,还是被黑客黑过。
05 特斯拉公布超算Dojo,未来模型训练会更快
《硅谷101》:特斯拉在视觉的方案上,有哪些技术方向的升级与进步?
刘冰雁:随着超级计算机Dojo的公布,一个比较大的改变是从基于2D的识别变为3D,在运动状态下的识别,他们最终去分析的是3D空间中每辆车的朝向这样的信息,而不是基于之前对二维图片的识别。
还有很多要发展的地方,比如需要对三维空间单目或双目的物体姿态的估计,这确实也是非常值得做的方向。特斯拉最大的优势是,有钱又有数据,我们花钱给它当试驾员,相比Waymo的话,它的数据量级是海量的。
《硅谷101》:特斯拉披露了超级计算机Dojo,它的算力据说达到了全球第五,马斯克还说想要达到超算能力的百亿亿次浮点,简单解释一下,具体的用途是什么?
刘冰雁:它可以用来做人工智能的模型训练。大家是否还记得Open AI做的的语言模型GPT-3?它当时花了1600万美元专门训练这个模型,让这个模型从一片混沌到能够知道一些事。
Dojo也是用来做训练这个过程的,让一个什么也做不了的模型,变成一个能认出猫,认出狗,认出人,认出车的一个模型。
《硅谷101》:可以理解为它如果用于视觉识别,视觉识别的效率会提升得更快,因为之前的算力达不到?
刘冰雁:对,可能以前我训练一个这样的模型需要几年的时间,在真实世界中这个时间是不可接受的。但如果加速100倍,一个电脑比它快100倍,几年的事情可能就变成了几天几周,就是可被实施的事情。
齐蕾:它就是算得更快,找东西的速度更快,是吗?
刘冰雁:差不多是这个意思,模型的规模决定了它分辨不同东西的能力,包括它的分辨精确度,规模越大越难训练。
齐蕾:会不会有一个问题,我们并不知道模型是通过什么样的方式算出答案的,它就是很不安全,是一个黑盒子,对于人来讲它已经不可控了。
刘冰雁:我们现在整个人工智能行业,不管是激光派还是视觉派,我们所依赖的都是一个黑盒子一样的东西。
往往都是实践先行然后理论跟上。现在也有一些理论物理学家在这方面进行一些研究,用一些更好的方式去理解这样的模型。现有的数学工具,是没有办法理解这样一些非线性系统的,但理论物理中有一些工具能进行大规模非线性理解。所以现在有很多理论物理学家在进行这方面的研究,用更好的方式来理解模型。以后可能不是黑盒,但目前几乎就是黑盒。
《硅谷101》:我们刚刚说了很多视觉派的优点,但即使特斯拉的人出去创业了,也是选择做激光雷达派,比如说像RoadStar之前也做视觉派,后来转向了激光雷达派,Auto X做摄像头解决方案的,最后也上激光雷达了,所有一开始就向着L4和L5的自动驾驶公司,最后不约而同走向了这条路。
刘冰雁:有这样一条简单的路,并且成本越来越低,干嘛不走。当然还有非常有名的一句话,我们选择它不是因为简单,而是因为难,这就是另外的一个故事了。
《硅谷101》是一档起源于硅谷的科技播客,分享最前沿的技术创新与商业趋势,大家也可以在苹果、小宇宙、喜马拉雅、蜻蜓FM等主流音频渠道或者泛用性客户端订阅《硅谷101》的音频节目。「无人车」特辑音频节目及文字稿同步发布于钛媒体App,感兴趣的听众可以下载订阅。
根据《网络安全法》实名制要求,请绑定手机号后发表评论