AI错删YouTube机器人视频，背后是人类难以消弭的身份焦虑-钛媒体官方网站

图片来源@@视觉中国

文 | 脑极体

人类有时理性。

为了让机器人学习技能，对它们进行千锤百炼、花式虐待，都是常有的事。

有时也很感性。

尽管我们也知道铜腔铁臂的机器人并不会因为被击打而感觉到疼痛，但依然希望能通过更温和的方式来让它们成长，科学家们想方设法试图让它们看看YouTube视频就能学习，或是在模拟环境里展开竞技……

除了同理心作祟，还有点未雨绸缪的小机智在里面。万一哪天某天机器人觉醒了，发现这些被人类虐待的“黑历史”，“黑化”了怎么办？电影里的机器人革命不都是这么来的嘛……

但，如果替人类反思的不是我们自己，而是AI呢？

当AI开始管理内容，它会违背规则、保护同类吗？

8月21人，YouTube用户Jamison Go最近收到了一封来自官方的通知，平台自动删除了他上传的战斗机器人比赛视频，原因是算法检测到该内容对动物施以折磨或强迫动物对抗。当时，机器人乔普正在和另一个机器人作战。

Jamison Go在自己的Facebook账号上写道：“今天是一个悲伤的日子。全世界的机器人爱好者都发出痛苦的哀鸣。”

他并不是一个人。上一季战斗机器人比赛的参赛者莎拉·波霍雷基也在YouTube上受到了相同的打击，这很快引发了全世界机器人相关内容频道的关注。许多像BattleBots和RobotWars这样的节目站出来，指责了YouTube这个将机器人战斗检测为虐待动物的新算法。

之所以认为是AI在捣乱，是因为人类几乎不可能在观看这些视频时将机器人认成动物，画面中也并没有出现人类和其他生物，被删除的视频并没有在描述、标签甚至标题里提到机器人名字这样容易被误认为是生命体的文本。而且，YouTube自身对于机器人战斗视频并没有明确的禁令。这不，第二天就有人工团队重新审查并恢复了大部分被误删的视频。看来，将其错误标注并删除的只能是算法自己干的了。

事情虽然告一段落，但AI开始擅自停止以机器人同胞们为目标的暴力，这让不少人陷入了“机器觉醒”的阴谋论里。甚至有人开始猜想，YouTube是不是被AI接管了，让算法做一切决定？所谓的“人工审核”到底是不是真实存在的？

又或者，你永远不知道人工智能何时会找到另一种方法来保护它的机器人兄弟。

AI有情？真的是只是一时眼花

那么，从技术的角度讲，错误删除视频到底是无意识地误伤，还是AI们的自我保护呢？

目前来看，答案当然是前者。因为，在理解视频这件事上，AI真的还没有大家想象的那么强。

2017年，谷歌推出了一款视频智能（Video Intelligence）的API，可以自动识别视频中的物体和内容。这在当时是里程碑式的应用，因为YouTube、Facebook、新浪微博、快手等等拥有视频产品的平台，无不深受不良内容的困扰。

一位泰国男子在Facebook上直播杀害亲生女儿然后自杀的视频，在网站上挂了将近24个小时，播放量超过25万次，但其全球将近5000人的人工审核团队依然无法在第一时间在浩如烟海的视频流里立即定位并删除这些不良内容。

Facebook屡屡因扩散不良信息而受到政府审查的同时，YouTube也在为视频审查带来的业务危机而头痛。因为早先YouTube的智能广告推荐算法，就将沃尔玛、百事可乐、电信运营商Verizon等广告主的贴片广告，分发到了一些宣扬仇恨和恐怖主义的视频上……金主爸爸们很快用脚投票，这让YouTube乃至整个Google的广告网络都感受到了压力。

虽然Google声称，这些问题只影响到了“非常非常非常少”的视频，但显然唯有行动才能打消用户与广告商的顾虑。

所以，“视频智能”技术发布的时候，时任谷歌云机器学习与人工智能首席科学家的李飞飞曾经这样形容它——通过视频识别技术，“我们将开始给数字星空中一个黑暗的物质照亮光芒。”

如今，两年时间过去了，网络内容的黑暗一角真的被AI照亮了吗？成果当然是值得肯定的，比如随着新算法模型的不断突破，谷歌的BERT训练方法可以将审查的人工劳动量从12,000小时减少到80小时。

但同样的，各大内容平台的人工审核团队也在不断扩张。显然，机器方法的引入并没有如预期中那样帮助平台提质增效。视频理解，依旧是一朵未能从应用层面被摘下的高岭之花，它具体难在何处呢？

首先是真实环境下的行为识别（Action Recognition）。

目前的视频行为识别模型，都使用动作分割好的数据集进行训练，像是 UCF101、ActivityNet、DeepMind 的 Kinetics、Google的AVA数据集等等。每个视频片段包含一段明确的动作，并被打上了明确且唯一的分类标签。但是真实环境中的视频都没有被预先切分，有时还会包含多人动作等复杂场景，或是包含复杂的情绪、意图，这些问题的处理难度都比人脸识别等明确定义的难以下，所以实际应用时准确率就会下降。

比如一只狗张开嘴巴，和一个人打开门，都会用“打开”(open)这个动词来标注，并被放进同一个分类中……从这个角度看，YouTube算法将机器人战斗当做动物虐待，好像也挺符合它目前的“智商”的。

对视频中的行为进行分类就已经很难了，如果再加上时序，就更让AI发愁了。

因为对于图像中的物体，目前的技术已经能做到很容易地进行检测和分割，然而生物行为的时序边界往往是很不明确的，一个动作何时开始、何时结束，动作变化幅度太大等等，都很容易让算法“眼花”。一方面，既要在大量连续帧之间解决时序冗余的问题，提高检测速度；又要提高“眼力”，在运动模糊、部分遮挡等情况下也能精准定位和识别，就在前不久Google又提出了新的基于Q-learning学习自适应交替策略，就是在速度与准确率之间寻求平衡。至少从这次“算法误删事件”看来，这条技术高山还需要工程师们持续向上攀爬。

另一个影响视频理解技术进程的，就是成本困境。相比图像，训练视频模型需要增加许多存储、计算资源，对实时性的要求也更高，因此也比普通神经网络更难训练，目前赛道上的主力玩家就是Google、Facebook、百度、头条等巨头在角逐。想要让更多开发者为技术进阶贡献脑力，如何减轻训练负担就成了不可忽视的工作。目前Google、百度都通过自家的开源平台释放了视频理解算法模型和标注好的数据集，一些运算资源上的扶持政策也相继露面，恨不得让开发者们“拎包入住”……

所以从技术层面来看，视频理解注定是无数人苦心科研的点滴心血累计，才能积累成撬动整个行业的能量，距离想象中的“AI机器人抱团”还有很长的路要走。

与智能机器共生，人类做好准备了吗？

只要稍微想一想，就能明白算法只是无心之失，毕竟就算它未来真的可能向着自己机器人大兄弟，现在也不具备那个业务能力啊。这么简单的事儿，为什么还能被“节奏大师”们引发一阵黑客帝国式恐慌呢？

原因之一，恐怕是大多数人对于《机器人打擂台》这种格斗节目或竞技比赛还是不甚了解，并不知道机器是在通过自由对抗提升对复杂环境和意外的灵活应变能力，使它们在硬件和智能程度上不断向应用进阶。

对于普通人来说，就看到一群机器人刀劈斧砍，互相倾轧，跟斗兽场取乐似乎并无区别，这就很容易产生移情效应，将自己的同情心理释放到算法上——“人看了都想打人，AI看了肯定更生气”，研究人员也没少因为对机器人拳打脚踢而登上头条……所以这次因YouTube下架事件受到影响的Maker's Muse幕后制作人Angus Deveson，就在一个声援视频中公开宣传：“战斗机器人节目是教育和展示工程学魅力的绝佳工具”，以期让更多人改变对机器人节目的认知。

而另一个比较隐藏的忧虑，则是对于“AI导向”的社会焦虑。

今天哪怕是偏远如非洲的人群，恐怕也无法否认，整个社会运转不仅仅由人类组成，也有越来越多的机器参与进来，从Facebook上的一举一动，到亚马逊流域猿猴的生存环境，智能机器正在成为人类和人类、人类和社会之间必不可少的媒介。

如今，人类很乐意交给AI的事情往往是那些自己不愿去做或者效率低下的事情，比如审核涉黄涉爆的网络内容。未来当所谓的“奇点”，也就是人工智能的智慧超过人类的智慧，真正来临的时候，智能系统会帮助人类来担当社会管理者的角色，那时，人类何以重新定位自身在社会中的位置，还能够自主选择吗？这种身份焦虑并没有一个清晰的解决方案。

许多研究者都告诉大众“车到山前必有路”，坐在车里蒙眼向前的人只好像YouTube“AI主导”这样的事故下时时惊惶。这里，或许我们在追逐AI的时候，也需要早日开始求解两个问题：

第一，AI上位如此迅速，大众认知教育与伦理建设到位了吗？

第二，如果没有，当算法与用户之间产生冲突（这几乎是必然的），科技企业在变革中如何自处？