MIT和微软的新成果，能否帮自动驾驶摆脱成长的烦恼？-钛媒体官方网站

图片来源：视觉中国

文 | 脑极体

市场运力嗷嗷待哺，科技公司和汽车厂商们前赴后继挥金如土，无人车路测也早已不是什么新鲜事，但自动驾驶的到来却没有想象中那么一蹴而就。至少这两年，它的烦心事还挺多。

在美国无人车政策最友好的亚利桑那州，两年间就发生了至少21起民众骚扰自动驾驶车辆和安全员的事件，甚至还有人持枪吓唬安全员，要求无人车滚出街区。

之所以犯了众怒，根本原因还是技术性失败太多了。数据显示，2014-2018年，加州自动驾驶事故的发生率连年增长，谷歌Waymo、通用Cruise、苹果、TRI（丰田研究所）、Drive.ai、UATC（Uber）等巨头一个都没能幸免。

纵然谨小慎微，依旧动辄得咎，无人车表示心里很苦。

经过数年的发展，自动驾驶的感知技术已经取得了长足的发展，高精度传感器和摄像头早就是标配。技术困境中的自动驾驶，恐怕需要一个更天秀的决策系统，来挽救自己日渐失去的人心。

而最近，这个救世英雄好像真的出现了。

防无人车甚于防川？自动驾驶的老问题与新解法

从加州机车辆管理局（DMV）刚刚披露的《2018年自动驾驶接管报告》中，我们可以得出一个基本结论：

自动驾驶初级阶段的基本矛盾，是人民日益增长的自动化期待值同落后的无人车驾驶技术之间的矛盾。

事实证明，尽管原本对无人车认路造成限制的空间感知能力已经大大增强，也没能帮助它们很好地适应现实世界。这也就不能怪大众对无人车上路没啥好脸色了。

像是恶名昭著的“Uber 无人车事件”，就是在探测到行人的前提下，系统却认为当前的位置不足以阻挡正常的驾驶行为，于是选择了以61公里的时速继续前进，没能留下足够的反应时间。

明明已经在实验室里接受过“遇到障碍物主动刹车”的培训了，但真正上路时，做出准确而符合逻辑的判断，对自动驾驶汽车来说依然是一件相当有难度的事情。

“心太大”容易酿成事故，太“肉”也有可能成为众矢之的。凤凰城里，Waymo在每个有停车标志的地方都会停车至少三秒钟，让排在它后面的人类司机十分抓狂，没少受市民的吐槽。

目前看来，能为自动驾驶汽车挽尊的，只有风控和效率两手抓的决策系统了。

但遗憾的是，很多现实中人类可以轻松处理的交通状况，机器就是无法做出准确、高效又足够谨慎的判断。因此，自动驾驶在很长一段时间内，还要依靠人工操作来弥补系统智商与人类期望之间的差距了。人工接管频率也因此成为了评价自动驾驶技术最重要的指标。

根据DMV的报告，技术最出色的Waymo，平均跑17846.8公里才需要人工接管一次；而被吊销了路测资格证的Uber，跑0.6公里就要被接管一次，这是想累死自家的安全员呀！

在一份谷歌提交的报告中，14个月的路测中自动驾驶和汽车就有272次汽车主动脱离无人驾驶状态，还有69次安全员决定接过控制权。谷歌表示，如果没有安全员的介入，无人车可能会发生13次交通碰撞事故。

在这种情况下，加州不得不规定，未来所有无人自动驾驶汽车公司都要设立远程人工控制室，在意外情况时能够接管汽车驾驶工作。

但如果以为只要有人类接管就能万事大吉，那可就太天真了。且不论未来全靠人工来解决无人车的意外问题，需要多么庞大的人工成本。就自动驾驶汽车现在这智商，让它独自上路，就算能在云端看着也不放心啊。

治本的办法，还是要让无人车学会在没有人类干预的情况下完全自动而安全地控制汽车。这可能吗？

麻省理工和微软最新的研究成果，就有可能让系统在训练过程中就认识并改正自己的错误操作，从而在实际驾驶中能够处理那些现阶段只能由人来判断的意外状况。

人类的新角色：从帮无人车收拾烂摊子，到机器智能训练师

在最新的研究中，麻省理工和微软提出了一个全新的自动驾驶训练方式，来帮助无人车在遇到意外时做出更好的决策，而不是出事了才手把手地给它收拾烂摊子。

前期工作和传统的训练方法一样，研究人员对自动驾驶系统进行全方位的仿真训练，以便为车辆上路时可能遭遇的每一件事做好准备。

不同的是，当自动驾驶汽车被部署到现实世界中运行时，新的“认知盲点训练”才刚刚开始。在自动驾驶测试车沿着预定的路线行驶时，人类会时刻密切地监视系统的行为，但核心任务并不是帮它救急，而是让它观察，在遭遇意外状况时，人类会怎么做。

如果汽车的行为是正确的，那人类就什么也不做。如果汽车的行动偏离了人类行为，那么人类就会接管过方向盘。此时，系统就会接收到一个信号，在这种特殊情况下，哪种才是可行的方案，怎样的操作是不能被接受的。

通过收集系统发生或即将发生任何错误时人类的反馈数据，系统就有了一个人类反馈行为清单。研究人员将数据结合起来生成的新模型，就可以更精确地预测出，系统最需要如何采取哪些正确的行动方式。

值得注意的是，在这个训练过程中，系统可能会接受到很多个相互矛盾的信号。

比如在系统眼中，和一辆大型汽车并行巡航时不减速是完全OK的，但如果对方是一辆救护车的话，不减速就并行就会被判错误。

高度相似的情境，人类会做出截然相反的反应。这种决策时的模糊地带，也是目前自动驾驶系统最容易犯错的地方，也是需要重新认知的“盲点”。

为了解决这一问题，MIT和微软的研究人员使用了一种Dawid-Skene的机器学习算法。该算法会为系统的行为分别打上“可接受”和“不可接受”两种标签，以此来判断系统在处理每个情况时，决策策略究竟是“安全”还是出现了“盲点”，再以此优化标签的可信度。

经过反复测试，系统会记住遭遇过的模糊情境，并根据标签推算出一个“犯错比”概率。

举个例子，如果系统在救护车情境中有10次执行了9次正确的操作（减速/停车），那么就会将这种特殊状况下的选择标记为是安全的。

简单来说，搭载了“犯错比”的自动驾驶系统，在人类的帮助下建立了一个可供自己反思的“错题集”，面对往常容易出错的“认知盲点”和模糊情境时，就可以调取出可被人类所接受的行为方式，更加谨慎和明智地信息行动。

人类的一小步，自动驾驶的一大步？

从实用性来看，该研究还面临一些现实问题。

比如说一般情况下，不可接受的行为比可接受的行为少得多，这就意味着，通过概率计算训练出的系统，很可能在实际操作中预测所有情况都是安全的，这无疑是极其危险的。

这种新的训练方式真正的潜力在于，凭借符合常识的操作，让自动驾驶有了更光明的前景。

首先，由于人类的高度参与，自动驾驶在真正上路之前，能够很好地预测在新的情况下可能会采取不正确的行动。过去，这些只能被动地等待安全员或云端人员处理。

正如宾夕法尼亚大学教授Eric Eaton所说的那样，“这项研究让机器智能和现实世界之间的不匹配来到了一个转折点，直接从人类对系统行为的反馈中推动机器智能的进步。”

另一方面，“人工”+“智能”的解决方案，也破除了造成“AI具有超能力”这一错觉的伊莱扎效应（Eliza effect）。在一些复杂多变的现实世界中，人类处理“盲点”的能力远比AI更出色。

这有助于将自动驾驶从过度乐观和过度悲观的两种极端情绪拉回到中间状态。

于是我们知道，自动驾驶的发展，既不像大众期待的那种“一步跨进自动化”，也不像唱衰者眼中那么凄风苦雨，要等数十年才能信任AI驾驶。

在振荡中前进，才是AI进入生活最真实的样子。