第四课:通用集群对深度学习系统的挑战
小欣:本期课程的最后一节,于洋老师会为我们讲解通用集群对于深度学习系统的挑战。
于洋:通用集群对深度学习是一个全新的挑战,它包括以下几个方面:
通用集群首先会将任进程成很多的组,每组构成一个Job,这些作业中有的是Web 服务、有的是流式数据处理作业还有深度学习作业。
这个集群需要做到服务隔离、多用户。因为这个集群上跑了众多的任务,一个任务挂掉不可以让其他的任务有任何的问题并且由于这个集群是直接的线上集群,所以它的稳定性要求还是非常高的。
这个集群需要有一定的优先级调度的能力。比如他首先需要保证线上任务的稳定性,但是也需要在机器空余的时候可以去做低优先级的任务比如实验性质的任务。
在这种集群里可以对硬件进行高效的利用。比如说HDFS可能更需要的是磁盘的IO或带宽。但是对于深度学习任务来讲可能更多需要CPU的计算能力和GPU的计算能力,他们就可以调度到同一个物理节点上。
这个集群还需要有自动伸缩的功能。比如在白天活跃用户众多,集群会用尽量少的节点做深度学习的训练而用更多的节点去做深度学习的预测或者是一个web服务进程。
但是在晚上我们的用户又比较少,闲置的机器就可以去做更多的机器学习的训练任务让模型变得越来越好。
深度学习系统必须有一定的错误容忍能力。也就是说在运行过程中我们可以杀死任意多的训练节点,将机器腾出来保证其他的任务运行。
小欣:非常感谢于洋老师的讲解,这期课程就到这里了。如果您喜欢这期课程就请大力点赞收藏或转发~还可以在下方评论中留下您想要交流的想法和对本课程的建议~当然也欢迎嘉宾推荐或自荐,咱们下期再见!
【版权归钛媒体所有,未经许可不得转载】
账号合并
经检测,你是“钛媒体”和“商业价值”的注册用户。现在,我们对两个产品因进行整合,需要您选择一个账号用来登录。无论您选择哪个账号,两个账号的原有信息都会合并在一起。对于给您造成的不便,我们深感歉意。
Oh! no
您是否确认要删除该条评论吗?