Martin Wainwright：用统计机器学习算法，加速人工智能的普及 |AI与智慧物流圆桌论坛-钛媒体官方网站

Martin Wainwright：美国加州大学伯克利分校的教授，国际著名统计学和计算科学专家

钛媒体注：人工智能在商业领域的应用正如火如荼，AI对产业颠覆性影响，正由越来越多的科学家、企业家、创业者乃至资本方合力完成，他们，是这个趋势中最活跃的大脑。

Martin Wainwright先生，是国际著名的统计学和计算科学专家，作为美国加州大学伯克利分校的教授，他既任教于该校的统计学系也任教于该校的电子工程与计算科学（EE&CS）系，由此而具备了横跨数学与计算科学两个领域的独特观点与优势。

在2017年7月15日由顺丰科技、钛媒体和杉数科技共同举办的“AI与智慧物流圆桌论坛”上（该论坛），Martin介绍了一种近两年来出现的新型统计机器学习算法Newton Sketch，该算法有助于超大规模数据集的快速优化、分析与理解。

作为全球统计学顶级大奖 COPSS 的2014年获得者，Martin强调Newton Sketch可以用更短的计算时间和更低的计算成本来处理超大规模高维数据集和高维神经元网络，这对于推动人工智能在商业领域的快速普及有着重要意义。

大数据引发的高维现象

统计学最早起源于两千多年前的古希腊。现代统计学以数理统计为代表，数理统计则以概率论为基础，属于基础数学学科，统计学由此进入了统计与数学结合阶段。

二十世纪初，t分布论文发表，出现了小样本代替大样本进行统计研究的方法，由此开辟了统计学新时代。统计学的核心问题就转化为：根据样本探求有关总体的真实情况。而过去由于计算设备、存储设备和计算能力等限制，无法获得全体数据集，在近十年来，这变成了可能。视频数据、社交数据、工业数据、各类传感器数据等培育了所谓大数据现象。根据IBM在2013年的一项研究，之前的两年产生的数据量接近全球数据总量的90%。IDC预测从2013年开始，全球数据总量每两年翻一番。

过去没有全体世界的数据，只能通过极少数据去推断，而现在不仅存在全体世界的数据，而且还在不断膨胀。更进一步地，一个数据对象有上千甚至上万个维度（属性），也就是“高维数据”。当计算和存储设备可以捕获全体数据的时候，问题就变成如何对全体世界的数据进行降维，从而可以在有限的时间和成本内理解和反映真实世界的情况。

统计机器学习对人工智能的意义

经典统计学、计算科学和人工智能应用等的交集，出现了数据科学。数据科学是经典统计学、计算机及应用的交集。Martin介绍说，在过去的数年间，学术界和产业目睹了数据科学这场变革，统计机器学习也应运而生。

统计机器学习是一门新兴的交叉学科，融合了计算科学、优化和系统科学，因此很多研究命题都来源于实际应用。在现实中，数据流规模日益增长，也变得更加动态和异构，因而对于算法的要求越来越高，而统计机器学习为此提供了一套非常有效的分析方法。相关领域例如生物信息学、人工智能、信号处理、通信、金融、控制论无一不受到统计机器学习的巨大影响。

Martin表示，由于数据噪音和丢失数据等原因，真实世界的大数据问题很有挑战，机器学习的目标是通过自动化的软件流程从数据中提取可靠、有用的信息，而统计推理本身也可从数据噪音中提取有用信息，二者结合将有更好的效果。

随机投影（Randomized Projection）是近年来新兴的统计机器学习中的算法，它把高维大数据集“投影”到低维数据集，而在降维过程中并不损失有效信息，这样就只需要在低维空间研究数据即可。Martin表示，随机投影已经在多个领域得到广泛应用，被证明是有效的算法。在此基础之上，Martin把该算法用于经典牛顿迭代非线性优化算法，即为Newton Sketch。

2015年5月，Martin与同事Mert Pilanci一起发表了论文《Newton Sketch: A Linear-time Optimization Algorithm with Linear-Quadratic Convergence》，该论文介绍了把随机投影方法和抽样Hessian函数用于牛顿迭代法，取得了非常好的近似线性效果，从而大幅简化了牛顿迭代的复杂性，可广泛用于大规模线性规划和二次规划等非线性规划问题，例如逻辑回归（Logistic Regression）、支持向量机（Support Vector Machine）等机器学习模型。

Newton Sketch对于深度学习为代表的机器学习算法有何意义呢？Martin表示，深度神经元网络需要GPU等特殊硬件的支持，虽然近年来谷歌等公司也在开发TPU等新型专用硬件、GPU也取得了大幅进展，但价格依然不菲。另一方面，深度神经元网络本身在实际的商业应用中还缺乏工程稳定性，特别是在数据质量不佳的情况下容易失效。最重要的是深度神经元网络有着“数据饥饿”现象：需要大量数据用于模型训练。而Newton Sketch则能大幅简化深度神经元网络应用的前提和条件。

Newton Sketch非常适于分布式的机器学习任务。在分布式机器学习中，海量数据分散存储在计算机集群的节点上，机器学习算法必须反复遍历这些数据，寻求最优模型。而Newton Sketch方法通过随机概括（Randomized Skeching）的技术来计算一个“合成数据集”。这个数据集概括了原有数据的本质信息，并且往往规模很小，甚至可以由单机处理。在这个数据集上进一步分析与建模，就可以获得更快速度、更低成本、更高效率的计算效果。

以Newton Sketch为代表的统计机器学习算法，为人工智能在现实商业世界的快速普及打开了一条道路，对于城市交通、智慧物流、电力网络等复杂巨系统的研究与建模有着很重要的现实意义，甚至对于电商推荐系统、社交网络评分系统等也有很高的价值，因为这些都是高维数据。

正如Martin在“AI与智慧物流圆桌论坛”所说，现实生活中数据大多都“生活”在“高维空间”，越简单方式处理高维数据就越有现实意义。随着像Martin这样的国际学术专家把统计机器学习等算法介绍到中国，有望加速人工智能等解决中国大数据现象的挑战，以工程化方式让人工智能算法真正落地，创造商业价值。

------------【下一场精彩预告】-----------