钛媒体PRO专业版_钛媒体官方网站

第三课：通用AI集群应该怎么搭建？

于洋 / 深度学习系统面临的挑战

第三课：通用AI集群应该怎么搭建？

小欣：这节课，于洋老师会为我们讲解通用AI集群应该怎么搭建。

于洋：专用集群其实是更常见的一种集群配置模式。比如说我们公司有存储的需求，我就配置一个Hadoop集群去使用HDFS，有线下处理的需求，我再用Hadoop的Map-Reduce集群去做线下处理。

对于网站的话，网站前端大家会配置一个nginx集群，再使用kalfka将网站的一些日志收集下来，再给AI处理。

专用集群的架构就是把几个事情分别部署在不同的机器里，这些机器是相互隔离，不能互相访问的。这样做的好处其实是显而易见的，因为不同应用分别跑在不同的物理机里，可以避免不同应用之间的相互影响，但是坏处也很明显，就是成本会很高，每个集群其实物理硬件的利用率是不够的。

下面我以一个语音识别服务举例，说明一个通用AI集群应该怎么搭建。

下图是一个通用集群的简单示意图，这个集群里有很多GPU的服务器，也有很多CPU的服务器，他们都部署在一个集群里。在这个集群的机器之上运行着Kubernetes。

Kubernetes是一个谷歌开源的分布式的操作系统。在2007年的时候，谷歌就使用集群操作系统Borg，通过混合部署各种来源的各种任务，将CPU的利用率一直维持在75%到80%左右。

这对企业的成本是一个极大的降低。之前我们说过普遍专用集群的资源利用率大概在20%左右，如果我们使用一个集群操作系统去管理集群的任务，那么硬件利用率可以提升到75%到80%左右，这样一个通用集群就相当于普通的四个左右的专用集群。

通用集群数据还是存储在HDFS上，在HDFS上有一些有标签的数据，这些数据送给PaddlePaddle做线下训练。在这个系统的前端就是一个语音识别的服务，用户去提交自己的语音后返回一段文字。

在这个前端语音识别API里用户实时提交的语音数据就形成了一个实时的日志，这个日志就会被其他的进程收集下来，比如使用Kalfka进行收集，再去做一些线上的预处理，进而将这些数据继续传递给PaddlePaddle做训练。这样PaddlePaddle既可以支持线下的大批量的数据训练，也可以支持线上的实时的数据训练。

在目前众多的深度学习平台里似乎没有一个平台再去考虑如何在通用集群里更好地进行训练。这是因为大部分的深度学习平台都是大企业开发的，在大企业中，通用集群的训练对他们来讲并不重要，但这对初创企业是至关重要的。

小欣：下节课，于洋老师会为我们讲解通用集群对深度学习系统的挑战。

【版权归钛媒体所有，未经许可不得转载】