在钛媒体Pro专业用户和付费用户专享的“钛坦白”在线课堂第32期,我们请来了三位钛客,分享对机器学习的思考 。本期钛客之一、阿里云人工智能科学家、人工智能孵化团队负责人闵万里博士,是千人计划专家,同济大学客座教授,2017 KDD CUP 大赛出题者。14岁被中科大少年班录取,19岁赴美攻读物理学硕士,后获得芝加哥大学统计学博士学位。先后在IBM TJ Watson Research Center及 Google 担任研究员。2013年加入阿里巴巴,参与主导了杭州城市大脑、饿了么人工智能调度等大型AI项目。
本文节选自闵万里在钛坦白的分享。如果您还不是钛媒体Pro用户,希望查看钛坦白所有干货,进入钛坦白九个专业群交流,并查看更丰富的专业数据和信息,可点击:https://www.tmtpost.com/pro 注册。
以下根据闵万里在钛坦白的分享实录整理:
大家好,我叫闵万里,花名山景,山中的景色,很高兴第一次以钛坦白这种新媒体的形式跟大家进行交流。我今天分享的重点是人工智能的实践。
研究大脑,做互联互通的人工智能
说到人工智能,我想大家都耳熟能详,在钛坦白也听了很多。我希望今天能够把一句话留在你的脑海当中,就是“互联互通的人工智能”,这句话背后的意思是什么呢?用中国的一句俗语来说就是“四肢发达、头脑简单”。
今天有这么多的创业公司在做人工智能,有做计算机视觉识别的,有做语音的,有做机器人控制的,但没有看到有一家公司在做大脑,所以我今天给大家分享的最核心的理念就是我们要做互联互通的人工智能,要研究大脑。大家前几天可能听说过的城市大脑,其实就是其中之一。
我用以上图来解释大脑的意思,在这张图上有左脑和左脑,左脑负责逻辑、算术、理性的推演,右脑负责的是艺术、文学鉴赏,创造力。人工智能在这两个维度上的发展,其实我们可以看到,从理性,也就是智商的角度上看,很早的时候机器就打败了人,从远古的算盘到近代的计算机,从深蓝到最近的AlphaGo,在理性上面其实人工智能早就超过了人类,但是在感性的基础上,也就是右脑这一块其实还是有很大的空间。
上面这张图是对人脑的研究。在国外很多年前就开始了,甚至到了白宫的层面。2013年的时候,奥巴马总统提出了在美国高校研究机构联合做一个关于大脑功能的研究。核心就是要充分的理解人脑的认知层面,它究竟是怎样工作的,它的信号的链路,它激活的功能区究竟是怎样相互关联的,时间的滞延、先后的逻辑顺序、空间、时空上的特征是怎么样分布的,对于旋转的物体、快速移动的物体、以及颜色快速变化,但是位置又不变化的物体,人脑识别这个过程又是怎样激活了哪些神经元、细胞元、认知的功能区。这个非常重要的意义在哪里呢?如果我们对一个认知过程的抽象理解,都能够用一些算法、公式甚至是一些定理把它描述出来,那么就有可能从算法层面以及工程层面,重现一个人脑的思考过程,这可能是人工智能最极致的一个状态。
这样一个雄心壮志是否能够实现?答案是可以。
如何用算法重现人脑的思考过程?
上面这张图是一个高度抽象的脑部神经元相互作用的网络模型,在这个模型上,各个节点可能是一个功能区,或者是一个细胞神经元,他们之间是相连的。他们有远近,他们之间信号的传递不可能是瞬时完成的,有一个神经反应的速度,一个人反应慢、反映快就是指这个。当我们把它抽象为一个简化的网络流模型之后,就有很多的数学上的定义,是可以帮助我们来反推它的。在这张图上各个相邻的神经元之间传递的信号,有强刺激、弱刺激,因为有的人可能对某些东西特别敏感,他的细胞会被激活的非常的活跃,所以他这个信号很强,但是有的人可能相对来说就弱一些,迟钝一些,他的信号就相对弱一点,还有的人反应快那就是信号传递得更快,反应慢就代表信号传递的速度会慢一点,所以这个网络,大家可以看其实跟交通网络非常相似,或者跟一个水管的网络也很相似。
在这个模型当中,有一个非常基础性的数学问题,就是当我们观测到了相邻的两个神经元或者是两个节点之间的信息流,这个信息流是源源不断随着时间在变化的,如果我们观测到了这些东西之后,我们是否可以反推这个信息流的传播的特殊路径是什么,最重要的路径是什么,他不可能是漫无边际的在整个网络上面是均匀的传递,他一定是沿着一个特殊的主要的路径去传递,朝某一个方向,激活某一个功能元,这个有点像我们早晨上班的时候,交通流肯定是沿着有序的方向往上班的CBD,中央商务区去。
现在问题抽象为一个可以简明扼要描述的数学问题,就是在一个固定的网络结构上,我们观测到了很多信号的传递,我们怎么样来理解这些信号的特征路径,也就是主要的路径,以及来预测某一类新的信号他会沿着什么样的路径去传递。
那么这个数学问题怎么解?我用三页纸来解释一下背后的定理。这些定理不是别人开源的东西里面有的,这是我们自主研发的,确切来说是我在过去十几年里做的一些研究发表的论文,这些发表的论文都是网上可以公开搜索到的。下图列了几篇主要的论文,其中2005年的一篇是理论性的,2011年和2013年有两篇是基于这个理论的应用。
在这里面最核心的理论就是当我们观测到了非常多的信息流之后,我们对它进行一些统计分析的时候,它的分布特性是什么样的。就有点像大家听说过的中心极限定理或者大数定理,当你观测到某一个现象非常多次数之后,基本上你就知道他趋近于一个平均值或者说他是一个正态分布,这是统计物理学中非常经典的一个结论。这个理论在脑神经认知科学的流程当中是否成立,我的这几篇paper当中实际上是给了一些正面的回答,在一定条件下,是可以满足正态分布以及中心极限分布的这个特性。
如果我们用一个定理来描述这个认知的过程,就如下图所示。这个定理其实也是当时我们做研究得到的最令人兴奋的一条结论,就是在网络流、信息流这个认知过程当中,如果这个网络本身是有限连接、紧致连接,当你重复很多次的时候,你会看到一个收敛的过程。也可以反推,当一个人见了某一个现象很多次之后,他就慢慢熟悉了,他的反应就可以趋向于可预测的状态,这就是印证了我们中国古话所说的“见多识广”,你见识很多了,你也不会大惊小怪,你会很自然的面对他,然后做出一个理性的判断。
基于以上理性的判断,后面就有很多可以做延伸的,比如,你会怎么想,什么样的进程让你感觉值得追寻,你的响应会是什么样……这样,你的行为就变得可预期了。
人脑研究在实际生活中的应用案例
以上这些理论,具体有哪些用途呢?以下是我们做的一些具体项目:
- 《我是歌手》总决赛的排名预测
在这个项目中,我们要研究的包括选的歌好不好,歌手唱的好不好,现场的氛围好不好,而这些都是一些神经刺激的信号,都会对人的认知过程产生一些影响。如果是一个大部分人都认为很好的信号,就可能得到一个非常正面的反馈。这个反馈的模型,其实是我们通过很多的过去的音乐的下载、点赞数字得出来的。
- ET
去年8月份我们发布了ET,这是集大成者,里面有语音的对话,还有一些网络流的预测,比如说我要预测交通网络是不是堵塞?
以上两个例子就可以看出,我们要判断多种不同的信号。在《我是歌手》中,有声音、有光、有伴舞、现场氛围等多种不同的信号对人的认知过程的产生刺激,而在ET的发布当中,其实我们要判断的是多种信号所带来的一个复杂的叠加效应会怎样在网络流上传播,这个网络就是整个城市网。
- 交通管理
这个网络流的理论,不光能应用在预测唱歌、文学艺术的创作,还可以在现实的物理网络当中用起来,这个物理网络最简单的一个就是交通网络。
大家每天都要参加,从一个节点跑到另外一个节点,你自驾车也好,坐出租车也好,这是一个交通网络上的一个动态的流,对于这个信息流,我们需要预知它的变化,现在的拥堵会蔓延到哪里,然后怎么样进行预防性的排堵。
去年我们在广州做的项目,可能是在人工智能指挥交通管理当中第一个成功的实践。为什么这样讲是第一个?这是因为我们动了一个交通管理当中最核心的东西,信号灯。大家在实际生活当中经常会发现,很多车都在等红灯变绿,但是在绿灯的方向一辆车都没有,这种供给的错配是因为它没有及时的发现这个网络流已经发生了变化,跟以往的经验不同。
我们在广州做的这件事情的核心是就是用移动互联网的数据,以及交警自有的数据,把多种信号融汇在一起,我们来判断,当一个路口的信号灯不健康的时候,配时不合理的时候如果我对它进行调节,相当于我在这个网络上刺激一个信号进去,它会怎么样沿着这个网络传递。
为什么我们要做这样一件事情,大家可以看下图。传统的信号灯是一个近视眼,因为它所有的触觉都是基于周边采集设备所看到的情况,比如说视频,比如说地面的线圈,雷达枪等等,但是它探测的范围都是非常的局部,而且是滞后的。
而互联网信号灯不一样,因为我们看到的数据是从天而降的,大家在开车的时候都是带着有手机的,而手机上又有你的定位,把这些数据聚合在一起就成了交通路况,甚至精准的知道在每一个路段上有多少辆车在跑,在往东边走,在直行、左转还是右转,能够看得清,甚至看得全,所以你看的是整个城市,没有盲点。再配上我们人工智能的算法,网络流的算法你就可能看得透。看得透直接的效果就是什么?我们能够判断管控的信号调整,就是一个信号灯,我把绿灯的时间占比调整,会怎么样影响到周边的几个街道,怎么蔓延,这就有点像我在脑部的神经当中某一个神经元上刺激一下之后,会影响到大脑当中周边哪些区域,哪些功能区。
这件事情其实也有另外一种完全不同的做法,如果我们不想去研究人脑的过程,或者是类比的过程,我们是可以用深度学习的方法来做这样一件事情。如下图:
这是一个典型的城市路网上实时路况,每个路段上标的红黄绿,代表的是交通是拥堵,还是畅通。大家设想一下,如果在我们的城市当中,每分每秒我们都有一张快照,我们就可以把一个交通状态的描述从网络的结构转化为一个image,有了image就可以用很多现在经常用到的深度学习的方法,来进行分类或者说进行监督学习或者无监督学习,来判断当前的状态会怎么样演变。
如果用深度学习的方法对当前的盘面做一个推演,我们就应该清楚该在哪些地方下手调整。比如说我要调整信号灯,甚至我临时的限制上高架路路口通行流量的占比。但你要具体判断,限流多久,从什么时间点开始,什么时间点结束,是100%的限流还是20%的限流,这些具体数据在今天的深度学习还没法得到,还是需要回归到原始的网络流的理论上去。所以在这个approach当中,深度学习可以给我们找到下手的目标,然后我们再用网络流的理论来判断,应该采用多大的力度,在什么时间点内采取行动,阻止整个盘面的恶化。
这个项目去年已经在广州的两个成功落地,今年在广州市将要全面推开,所以这应该说在全世界是第一个,在这么大规模的城市当中用人工智能去实时的控制他的信号灯。
- 城市大脑
如果说用互联网的数据控制信号灯是人工智能在交通管控当中成功落地的一个案例的话,城市大脑就是一个全面的升级。
上面这张图片是城市大脑的一个截屏。过去一年不少媒体在问,杭州做城市大脑的初衷是什么?其实跟上面是同样的道理,杭州要把所有的数据汇集,要看得清楚各种信号,要做实时的推演,要判断这个盘面,交通状况会怎么样的变化,公交车在哪里会有堵塞。再基于这个判断,进行实时的调度比如说调节高架路的信号灯,调节地面道路的信号灯,调节主干线公交运行班次甚至临时加开特快专线。
大家肯定会问,为什么我们要在这个时间点提出城市大脑的概念,这个答案其实要回归到十多年以前,智慧城市的提出,IBM 2005年前后提出智慧星球,我们当时是第一批做这个事情的人,我们明确的感到了一个痛点,就是当你在一个城市规模的范围上做计算的时候,计算能力成为一个瓶颈,因为数据量太大了,太丰富了,处理往往是滞后的,成为一个事后诸葛亮的分析,而不是一个实时在线的一个预防性的决策助手。
群里各位可能知道,阿里巴巴技术委员会主席王坚博士最近出版了一本书叫《在线》,在线这两个字背后的含义非常的深刻,我们现实生活当中,有很多伪智慧城市的工程,就是因为不在线导致的。事后诸葛亮的分析大家都可以做,但是在线的实时分析,而且在线的有智慧的分析,却需要海量的计算能力,海量数据的处理能力和计算能力,而在没有云计算的时候这是不可想象的一件事情,但是在今天,这个已经成为现实,因为类似阿里云这样的云计算大头已经起来,在国外有AWS、亚马逊的云,所以云计算的出现使得大数据的分析变成实时在线可能,城市大脑也就自然而然地出来了。
- KDD Cup 赛题
KDD是国际数据挖掘计算机学会,KDD Cup 数据挖掘大赛已经有20多年历史了,每年举行一次。这次我们提交了一个赛题,立意就来自于广州的信号灯。
在这个赛题酝酿的过程当中,我们也经过了很多思考,究竟什么样的题目既能够引起学术界的兴趣,同时他又具备充分的可落地性,而不是为了一个大赛而大赛,这里面还是蛮绞尽脑汁,最后我们发现从信号灯的管控上,高速路口的瓶颈着手,既能够解实际问题,又有学术挑战性。
更重要的是我们在广州已经有了成功的实践,所以我们知道这道题目是有答案的,只是我们今天的答案可能不是很完美,当你是一个全球首创的解决方案的提出者的时候,你知道肯定有更好的答案在后面,所以我们希望通过这道赛题,能够唤醒学术界的关注,包括同仁们的关注,让我们一起找到更好的答案,帮助广州以及其他城市,尽快的让信号灯变得智能,让城市大脑能够跟它的每一个触觉地面上的信号灯能够实时的联动。
当时出这道题目的时候,我们也有些犹豫,外界包括学术界对阿里巴巴的认知都是在电商,如果我们把电商的数据拿出来,可能更符合大家的预期,但是后来我们想了一下,毕竟电商中国色彩太浓,而交通是一个全球性的问题,所以我们最后选了这样一道题目。这个大赛已经正式开赛,大家感兴趣可以在网上搜索大赛的情况。
- 运输车辆调度
有一个工厂每天需要从周边的零部件供应商那儿用卡车把部件送到生产厂组装线上来实时的生产,生产线有非常严格的开工时间要求,一旦开工就不能停下来,那些送货的人必须确保零部件及时的送到工厂,所以他们每天用七辆卡车,共1835公里运输总里程数。
当我们用人工智能大数据,以及云计算的方法去实时的计算整个沿途所能遇到的情况,以及现在生产线还有多少冗余的备件,还可以运行多久的时候,我们就有可能判断中间某些卡车可以在运输的过程当中,再去另外一个地方取备件,既能保证时间,还能节省一趟无谓的行程,最后实际上我们是成功做到了。最后是只用了五辆卡车,每天只跑1600多公里就已经做到了同样的要求。
而要做到这样,其实得益于的就是我们有一套实时在线的调度引擎,实时在线能够看到所有的位置,以及各个岗位上现在的状况,还有的就是在沿途的整个的交通状况,所以集合在一起,就做了一个经典的运筹学的问题,叫Vehicle Routing Problem(车辆路径问题)。这个就是路线问题,有非常多的约束条件可能变化,稍微变一变约束条件,他的难度可能就会增加好几个量级,在以往没有云计算是几乎不可想象的事情,只能成为经验性的操作,但是今天不一样,我们把它变为在线的实时计算,每一步都是算出来的。
- 送外卖
这里面有三种角色——餐馆、吃饭点餐的人、运输的人,而中央调度台需要判断每一个订单分给哪一个运输的人,尤其在高峰期大家都饿的时候非常难,靠人来调是应接不暇的。这个问题怎么求解,这就有点像滴滴打车、快滴打车,这个订单发给谁,实际上还是需要靠一套调度的机制和算法实时在线进行计算。你不仅要知道彼此的位置,还需要知道时间,还要需要知道从一个点到另外一个点中间的行程时间,交通状况是不是有拥堵。而这个问题其实我们从去年年底开始,已经在饿了么开发上线,所以现在饿了么已经有相当多的站点是自动化的调度。
- 质量管控
上个月有一篇新闻报道,我们用数据挖掘的算法和模型,成功帮助江苏的协鑫光伏(全球最大的光伏切片企业)把整个生产线的良品率提升了一个百分点,每年创造上亿元人民币的价值。大家可能会问,这个问题跟人工智能有什么关系,感觉就是一个很经典的质量管控问题。
其实我们做的跟原来用统计的方法做的事情是完全不一样的,今天在这个生产线上有几十个环节,上千个参数,而且是实时在线收集的,所以他的数据量已经超过用经典统计方法可以分析的力度。在复杂性方面,有离散性变量,有连续性变量,采集的变量之间还带有一些强依赖性,有冗余性在里面。更重要的是,它需要做实时在线的分析,及时发现异常实时反馈控制这个生产线。
用人工智能怎么解决这个复杂问题呢?首先我们要把这个生产线抽象为一个神经元模型,就是一个神经链路有多个功能区链接在一起,你可以认为是某一种认知行为的一个特征路径。在这个特征路径上面,每一个环节到下一个环节,都传递的是一个信息,而在光伏切片当中传递的是一组参数,以及这个物件用这样一组参数我切割下来的这个产品,他到了哪个阶段,然后传递到下游去,所以他传递的信息是通过物件,就是它切的那个光伏的板块来传递的。
所以当我们把切割的流程抽象为一个信息传递的流程的时候,后面的分析就变得很自然了。它就是一个信息流,它的异常以及这个信息流上的关键节点,哪几步是最关键的,对整个信息完整的表达是最至关重要的,我们通过历史的海量数据去挖掘,在云计算的大数据平台上去挖掘,是能够发现这个最关键节点,也就是对应了在这个生产流程当中最关键的工序,它有几十道工序,是第几道工序,在对应关键节点的工序上,他最优的参数控制应该是什么样,又是另外一个问题,就有点像我们刚刚讲的调节信号灯一样的。
协鑫的这个案例其实他代表的是一类看上去非常传统的制造业,尤其是流程制造业,包括半导体流片、印染企业、钢铁都是流程制造企业,他们都可以抽象为一种信息流,有不同的节点,那么怎么样从海量的历史数据当中,去发觉在这个信息流当中最关键的节点,以及每一个关键节点里面他最优的参数控制,我们今天找到一种解法,所以协鑫的这个实践其实是具有很强的行业辐射性。
基础理论实现突破的希望——量子计算
前面讲的都是我们基于要做大脑,要做认知,要从信号的传递、网络流传递这个基础性的物理过程上来解题,找到一些实战的应用案例。那么再从实战回归到到基础性的理论研究上,我想我刚刚给大家展示的那些文章、图片,都是很多年前我做的,肯定已经是不充分的,不够用了,只是一个抛砖引玉。今天如果在基础理论上我们要突破,方向在哪里?
可能大家听得最多的是谁谁谁开源了某一个平台,这个年代,我们不缺平台,我们缺的是思想,我们缺的是算法。更重要的是我们缺少原创性的算法和理论。在科学和技术这两者的结合上,其实今天有相当多的公司,包括从业者们,更看重的或者更加关注的是那些技术上的发展,谁谁谁开源了一个平台,把计算效率提升了多少,当然这个非常重要,但是为什么深度学习的理论,包括神经网络的理论,不是在中国创造出来的?我们有没有机会在下一轮的人工智能的理论发展上,或者脑科学的发展上,互联互通的人工智能发展理论上,做出一个开创性的成果?我觉得有可能。这个方向在哪里?在量子计算。
下面这张图是跟我今天要讲的核心思想“互联互通的人工智能”紧密相关的一张图片:
这里面解释了一个什么问题呢?就是如果我们来看量子计算机或者是量子算法,它是一种崭新表征,来解释我们在人脑过程当中所传递的信息的流程,不是用传统的电子计算机里用的0或者1,而是用量子位来表达的。
这是一个全新的理念,为什么这个很重要,大家可以想象一下,在我们人脑的神经元的物理过程当中,经常它是处在一种模糊态的,你这个神经元可能是半梦半醒之间,是一个混合态,不是非黑即白的状态。对于这种混合态的描述,一个细胞可能处在激活或者没激活之间过渡态的时候,什么样的机理什么样的数学理论是比较合适的,答案就是这个量子计算机,就是量子算法,说白了就是qubit。
qubit是一个理论物理当中诞生出来的一个非常好的数学工具,能够非常巧妙的来描述这样一种半梦半醒之间的混合态。这个混合态的诞生不是天方夜谭的事,几天前新闻报道了一个非常重要的里程碑式的突破——IBM已经商用化了50位的一个量子计算机!这可能会带来一个革命性的影响。
今天我们要问一个问题,当量子计算机哪天成功的实现了之后,我们今天那些吹得很厉害的算法还有多少能够跟它相比,或者说能够改造为用量子位来表征的算法?究竟能带来多大效能的提升?
所以量子计算是一个非常基础性的理论问题,我们也是自己一直在追踪研究这个东西,但它确实非常的难,因为任何一个推演,都需要物理实现去做实验,去验证,而做量子计算机的实验是非常难的。可能大家也从新闻看到过,阿里巴巴跟中国科学技术大学潘建伟院士有合作,已经宣布过,我们要在量子计算机上进行突破,其实就是瞄准了这样一个目标,我们要在原创性的机器学习、人工智能的算法理论上来突破。
至于这个目标什么时候能实现,其实真的我们都没有底,因为这是一个非常漫长的过程,确切来说几十年来,从量子计算机在八十年代的时候,首先提出不等式,已经过去三十多年了。就像任何一个划时代的创新,从来不会事先规划出来的,是做出来的,我们唯一能保证的就是我们埋头苦干。钛坦白群里的也都是在科技界的同仁,希望我们能够一起来关注这样一件事,来呼吁更多科技从业者关注量子算法这样一个方向。
(本文独家首发钛媒体,根据阿里云人工智能科学家、人工智能孵化团队负责人闵万里博士在钛坦白上的分享整理)
……………………………………
钛坦白第32期,AI已来之机器学习1,三晚上的分享已经结束了
干货会陆续发布:https://www.tmtpost.com/tag/1508094
钛坦白第33期预告:AI已来之机器学习2
来自百度、第四范式、地平线机器人的钛客,继续就“机器学习”带来精彩分享~
时间:3月20日、21日、22日
地点:钛坦白|人工智能(微信群)
报名听课、交流:
钛坦白目前有医疗健康、人工智能、文娱社交、VR/AR、区块链、支付创新、体育、云计算、SaaS等九个专业群。
1、钛媒体Pro专业版用户,可以点击链接https://www.tmtpost.com/pro,登录账号,在线免费、任意选择自己要进入的群,按提示操作;
2、非钛媒体Pro专业版用户,可以添加微信号taitanbai0,在通过好友后,发99元红包给小钛,你将有权利从九个群中任选一个群进入,长期听课、交流。请告诉小钛你要进入哪一个群,然后等待小钛拉你入群~
推荐钛客、赞助、合作:
请与钛坦白负责人佳音联系,邮箱jiayinge@tmtpost.com
根据《网络安全法》实名制要求,请绑定手机号后发表评论
人脑运行的逻辑是很复杂的,如果真的摸索出一点对目前的人工智能的影响也将是巨大的,希望早日把灵犀语音助手,siri等软件真正做成人们身边的智能好助手。