最近很多海外企业之中在发生一种很有趣的改变,那就是AI正在脱离来其他部门附属品的角色,成为一个独立的部门或事业部。
先是CEO纳德拉对微软大动干戈的进行了重组,将原Windows部门重组成“设备与体验”和“云计算与人工智能平台”。很快谷歌也宣布将原来的人工智能及搜索部门一分为二,将人工智能部分独立出来,归由原来谷歌大脑的负责人Jeff Dean领导。很快苹果又挖角了谷歌前人工智能及搜索部门主管John Giannandrea,任命其领导机器学习和人工智能战略并直接向Tim Cook汇报。
对于AI行业来说,这显然是好消息。谷歌和微软一样,原本将AI与自身最核心的业务归拢在一起,如今将两者区分开来,无疑是一种提升对AI重视程度的表现。未来的风向或许是,深度学习不再是某一项业务的衍生品或附庸,甩掉原生根系的纠缠,走向独立发展、高频竞争的快车道时代。
而在整个AI快道比拼当中,硬件算力、数据算法等等元素无一不处于白热化的竞赛之中,几乎每天都有新的论文、新的产品问世。可隐藏在快道底层的,却是一个极易被忽视,但却实际至关重要的问题——深度学习开发框架。
每位AI开发者每天都会使用它,可外界对它的关注却少之又少。但深度学习开发框架绝非一滩死水,悄然之中谷歌、Facebook、百度三大AI玩家,正在围绕深度学习框架展开一场新的“三国杀”。
AI要冲:深度学习正在变成一件更专注、更系统的事
在谷歌原来的业务结构中,谷歌大脑本是一个偏重于研究的团队,在深度学习、NLP、CV等等领域的国际期刊和学术上发表了大量论文,并且将开发框架TensorFlow归拢到自己旗下。
随着近一两年间AI相关技术的应用性增强,谷歌大脑的上述研究结果也开始有机会进一步投入产业。谷歌这一次提升AI业务的重要性,或许是在谋划AI业务独立开发和系统性业务布局的可能——AI与工业、AI医疗影像……当技术前景越来越广阔时,就进一步展现出了深度学习开发框架在产业关系中的战略要冲地位。深度学习开发框架可以圈定开发者和应用,从而释放谷歌在AI方面的技术能力和未来TPU的计算能力。
巨头们纷纷开始调整架构,意味着深度学习正在走向系统化和专注化,这以数据、感知与运算的深度缠绕的产业领域,开发以及开发者生态自然成为了产业活跃度的基石,有关开发生态的竞争则直接体现在了深度学习开发框架的发展中。
比如,Facebook就不愿让谷歌独享深度学习开发平台带来生态收益,在去年年初推出了针对意味十足的开发平台PyTorch。并且在去年9月联手微软旗下的CNTK和Caffe2,推出了一套开放的神经网络交换格式,为的是在谷歌生态愈发封闭时,提升场内其他选手之间框架格式的互通性。
而在中国,百度的PaddlePaddle也在不断发展,凭借本土化特色吸引了国内的开发者,综合GitHub pull request的数据来看,PaddlePaddle已经成为了全球开发热度增速最高的开源深度学习平台。同时随着百度在斯坦福、加州伯克利等海外高校频繁开展技术交流活动,PaddlePaddle甚至在逐步走向世界舞台。
不知不觉间,这三大科技巨头专属的深度学习框架,正在展开一场新的三强争霸。
降低一切门槛:开发框架三国杀在争什么?
在我们谈论AI开发时,我们就究竟在谈论什么?
- 更多的开发者:开发者数量显然是一切的前提,数量广阔的开发者就像蒲公英的种子,会把深度学习开发框架以及相关的软硬件服务带到各个企业中去,帮助巨头们的AI布局在四处扎根生长。
- 更活跃的开发生态:建立在大量开发者数量之上,用案例和经验对开发社区进行填充,鼓励开源和共享,让AI的开发变得更加简单,从而进入更多行业和场景。
- 更高级别的开发项目:自身框架中诞生一款杀手级应用,可能是每个巨头都会有的理想目标。高价值和高效用的应用AI很可能带来大量簇拥者,一齐涌向该框架的生态之中。
总之,如何降低门槛以一切手段吸引开发者进入,成为了三大开发框架的共同目标。
最典型的例子就是TensorFlow与PyTorch之间的竞争。
在目前的开发框架中,TensorFlow凭借着谷歌的技术优势一直表现的较为强势,在开发者越来越多时,其开发社区生态也在进行良性发展。
但占据了优势后,TensorFlow开始随着谷歌一同收拢自身的开发生态。比如谷歌曾经推出过一系列赋能开发者的培训计划,向开发者提供课程教学。但结果是所有的教学全部都建立在TensorFlow之上,所提供的硬件API也只能接入TensorFlow,而TensorFlow的社区资源和开发工具更新,又部署在谷歌云之上。并且TensorFlow在最近单方面和Caffe等开发平台“友尽”,使得开发者们无法进行平台之间的迁移。
而Facebook就抓住了这一点。将原来的开发工具Torch进行升级,联手微软打造神经网络交换格式帮助开发者降低迁移成本。同时PyTorch设计了更方便的数据加载API接口,使开发过程中加载并行数据更加顺畅,相比TensorFlow降低了不少API方面的学习成本。
在自定义扩展上,PyTorch也改变了TensorFlow依靠样板代码才能实现的情况,通过为CPU/GPU编写接口这种更易行的方式添加自定义拓展,使得开发过程中的自由度大大提高。
综合来看,在开发框架的竞争中,赛点在于更低的学习成本和迁移成本,以及更高的易用性和社区友好度。
在这几个方面,西方战场之外的PaddlePaddle也以灵活、易用著称。在训练部分的调用方式上集中了浏览器和客户端等多种主流调用方式,并支持CPU、GPU、FPGA等多种硬件,从而极力降低开发成本。同时为了让更多开发者和企业能够将现有项目接入到中PaddlePaddle,PaddlePaddle做到了从基础训练到分布架构彻底开源。百度争夺开发者的决心可见一斑。
当然在中国市场范围来看,PaddlePaddle最大的优势还是拥有唯一提供适用中文文档与数据集的开发框架社区。中国市场作为区别于欧美世界之外的独立极,坐拥庞大的中国AI产业与开发集群,这些产业和开发者都需要适用于本土的经验体系,也自然会被PaddlePaddle的社区氛围吸引。
关注未来红利:贸易战带来的中美AI对标新命题
在理想状态下,通过开发框架牢牢把控开发者体系,在自身平台上不断产生生态效应,收割未来必然出现的AI时代现象级产品与应用,这一流程才是巨头们所关注的目标。
同时我们要知道,所谓的把现象级产品和应用放到AI这一定语之下,就意味着这些应用可能与社交媒体联系,关乎着我们的舆情数据,也可能与自动驾驶联系,关乎着每一辆汽车的行驶路线。
在这时我们不得不提出另一个可能,在中美贸易战的大背景下,中国AI开发群体,尤其是AI企业,使用TensorFlow等平台的风险指数正在提升。
就拿美国向全球提供免费GPS技术来说,曾经很多国家甚至在军用设施上也利用GPS进行定位技术,但在99年印巴战胜时,美国出于利益直接关闭了印巴地区所有的GPS服务。想象一下,两军交战之时,忽然所有人都不知道自己的位置信息,这是一件多么恐怖的事情?如今TensorFlow早已不再是单纯的开发框架,而关系着技术、云服务等等多种模块。如果同样的状况复制到AI上,如果有一天深度学习模型已经埋藏在我们生活作业的种种细节深处,谷歌却因为种种原因停止向中国提供云服务,我们连迁移模型都十分被动。
而最近因中美贸易战引起的芯片事件,似乎为中国整个科技产业都敲响了警钟。
对于AI更是如此,如果我们可以建立完全本土化的开发框架和社区,连接在地化的数据、计算服务和技术,中国AI也就可以实现由开发到技术创新,再到产业模块与商业化的完全自生态流程。
虽然在经济全球化发展的大背景之下,没有任何一个国家可以完全依赖自身发展科技。但在全球对弈的牌局中,为自己加码也一定是一项不会出错的选择。
根据《网络安全法》实名制要求,请绑定手机号后发表评论