2024 T-EDGE文章详情页顶部

Martin Wainwright:用统计机器学习算法,加速人工智能的普及 |AI与智慧物流圆桌论坛

现实生活中所有的数据都“生活”在“高维空间”,人工智能算法究竟如何应对?


Martin Wainwright:美国加州大学伯克利分校的教授,国际著名统计学和计算科学专家

钛媒体注:人工智能在商业领域的应用正如火如荼,AI对产业颠覆性影响,正由越来越多的科学家、企业家、创业者乃至资本方合力完成,他们,是这个趋势中最活跃的大脑。

Martin Wainwright先生,是国际著名的统计学和计算科学专家,作为美国加州大学伯克利分校的教授,他既任教于该校的统计学系也任教于该校的电子工程与计算科学(EE&CS)系,由此而具备了横跨数学与计算科学两个领域的独特观点与优势。

在2017年7月15日由顺丰科技、钛媒体和杉数科技共同举办的“AI与智慧物流圆桌论坛”上(该论坛),Martin介绍了一种近两年来出现的新型统计机器学习算法Newton Sketch,该算法有助于超大规模数据集的快速优化、分析与理解。

作为全球统计学顶级大奖 COPSS 的2014年获得者,Martin强调Newton Sketch可以用更短的计算时间和更低的计算成本来处理超大规模高维数据集和高维神经元网络,这对于推动人工智能在商业领域的快速普及有着重要意义。

大数据引发的高维现象

统计学最早起源于两千多年前的古希腊。现代统计学以数理统计为代表,数理统计则以概率论为基础,属于基础数学学科,统计学由此进入了统计与数学结合阶段。

二十世纪初,t分布论文发表,出现了小样本代替大样本进行统计研究的方法,由此开辟了统计学新时代。统计学的核心问题就转化为:根据样本探求有关总体的真实情况。而过去由于计算设备、存储设备和计算能力等限制,无法获得全体数据集,在近十年来,这变成了可能。视频数据、社交数据、工业数据、各类传感器数据等培育了所谓大数据现象。根据IBM在2013年的一项研究,之前的两年产生的数据量接近全球数据总量的90%。IDC预测从2013年开始,全球数据总量每两年翻一番。

过去没有全体世界的数据,只能通过极少数据去推断,而现在不仅存在全体世界的数据,而且还在不断膨胀。更进一步地,一个数据对象有上千甚至上万个维度(属性),也就是“高维数据”。当计算和存储设备可以捕获全体数据的时候,问题就变成如何对全体世界的数据进行降维,从而可以在有限的时间和成本内理解和反映真实世界的情况。

统计机器学习对人工智能的意义

经典统计学、计算科学和人工智能应用等的交集,出现了数据科学。数据科学是经典统计学、计算机及应用的交集。Martin介绍说,在过去的数年间,学术界和产业目睹了数据科学这场变革,统计机器学习也应运而生。

统计机器学习是一门新兴的交叉学科,融合了计算科学、优化和系统科学,因此很多研究命题都来源于实际应用。在现实中,数据流规模日益增长,也变得更加动态和异构,因而对于算法的要求越来越高,而统计机器学习为此提供了一套非常有效的分析方法。相关领域例如生物信息学、人工智能、信号处理、通信、金融、控制论无一不受到统计机器学习的巨大影响。

Martin表示,由于数据噪音和丢失数据等原因,真实世界的大数据问题很有挑战,机器学习的目标是通过自动化的软件流程从数据中提取可靠、有用的信息,而统计推理本身也可从数据噪音中提取有用信息,二者结合将有更好的效果。

随机投影(Randomized Projection)是近年来新兴的统计机器学习中的算法,它把高维大数据集“投影”到低维数据集,而在降维过程中并不损失有效信息,这样就只需要在低维空间研究数据即可。Martin表示,随机投影已经在多个领域得到广泛应用,被证明是有效的算法。在此基础之上,Martin把该算法用于经典牛顿迭代非线性优化算法,即为Newton Sketch。

2015年5月,Martin与同事Mert Pilanci一起发表了论文《Newton Sketch: A Linear-time Optimization Algorithm with Linear-Quadratic Convergence》,该论文介绍了把随机投影方法和抽样Hessian函数用于牛顿迭代法,取得了非常好的近似线性效果,从而大幅简化了牛顿迭代的复杂性,可广泛用于大规模线性规划和二次规划等非线性规划问题, 例如逻辑回归(Logistic Regression)、支持向量机(Support Vector Machine)等机器学习模型。

Newton Sketch对于深度学习为代表的机器学习算法有何意义呢?Martin表示,深度神经元网络需要GPU等特殊硬件的支持,虽然近年来谷歌等公司也在开发TPU等新型专用硬件、GPU也取得了大幅进展,但价格依然不菲。另一方面,深度神经元网络本身在实际的商业应用中还缺乏工程稳定性,特别是在数据质量不佳的情况下容易失效。最重要的是深度神经元网络有着“数据饥饿”现象:需要大量数据用于模型训练。而Newton Sketch则能大幅简化深度神经元网络应用的前提和条件。

Newton Sketch非常适于分布式的机器学习任务。在分布式机器学习中,海量数据分散存储在计算机集群的节点上,机器学习算法必须反复遍历这些数据,寻求最优模型。而Newton Sketch方法通过随机概括(Randomized Skeching)的技术来计算一个“合成数据集”。这个数据集概括了原有数据的本质信息,并且往往规模很小,甚至可以由单机处理。在这个数据集上进一步分析与建模,就可以获得更快速度、更低成本、更高效率的计算效果。

以Newton Sketch为代表的统计机器学习算法,为人工智能在现实商业世界的快速普及打开了一条道路,对于城市交通、智慧物流、电力网络等复杂巨系统的研究与建模有着很重要的现实意义,甚至对于电商推荐系统、社交网络评分系统等也有很高的价值,因为这些都是高维数据。

正如Martin在“AI与智慧物流圆桌论坛”所说,现实生活中数据大多都“生活”在“高维空间”,越简单方式处理高维数据就越有现实意义。随着像Martin这样的国际学术专家把统计机器学习等算法介绍到中国,有望加速人工智能等解决中国大数据现象的挑战,以工程化方式让人工智能算法真正落地,创造商业价值。

------------【下一场精彩预告】-----------

AI大师圆桌会之“AI时代,博弈与行为分析”,与“冷扑大师之父”面对面

时间:7月20日下午        地点:上海财大豪生大酒店

扫描图片二维码进入「AI大师圆桌会·上海站」抢票地址

AI大师圆桌会·上海站日程(拟)

席位有限,抢票即刻开启欢扫描上图二维码、或点击进入报名链接:

http://hasrbxdj-1.eventdove.com

本文系作者 吴宁川 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • 期待着

    回复 2017.07.19 · via android

AWARDS-文章详情右上

快报

更多

21:45

万丰奥威:百年人寿持股比例降至5%以下

21:33

义乌全球数贸中心:将部署直连境外的跨境数据传输通道

21:31

加拿大9月零售销售环比增长0.4%,预期0.4%,前值0.40%

21:19

周鸿祎入选世界互联网大会首届人工智能专委会主任委员

21:18

数据显示11月欧元区商业活动急剧恶化

21:11

花旗获批在沙特利雅得设立地区总部

21:06

下周629.82亿元市值限售股解禁,神农集团解禁129.5亿元居首

20:57

伦敦可可期货上涨超过4%,报7425英镑/吨

20:50

汤姆猫:与包括AppLovin等国际主流的广告营销平台建立了良好的长期业务合作关系

20:50

爱旭股份:明年BC组件出货规划为20GW以上

20:37

三六零:前三季度基于“360智脑”能力开发的互联网ToC端产品所产生的直接收入在整体营业收入占比不超过2%

20:36

纳入62种药品,第十批国家组织药品集采将于12月12日开标

20:34

爱婴室:股东拟合计减持不超过1%

20:34

国家药监局批复同意北京等十省(市)开展优化药品补充申请审评审批程序改革试点

20:30

科大讯飞:拟推首期员工持股计划

20:26

合肥城建:拟公开挂牌转让控股子公司肥西康居70%股权

20:24

摩根大通预测2025年全球原油供应将出现大约130万桶/日的过剩

20:22

滴滴张博卸任CTO,未来将专注自动驾驶业务

20:18

三峡新材:控股股东当阳城投拟7000万元-1亿元增持股份

20:17

我国海上风电累计建成并网3910万千瓦

1

扫描下载App