算力供需矛盾:一边大模型争霸、一边GPU算力闲置| ToB产业观察

深度
企业用户对云数据中心、服务器集群,对大算力芯片的海量计算诉求没有得到充分满足——用户还没想明白怎么用。

 图片来源@视觉中国

全球大模型争霸赛,正推进大量产业应用诉求。但这一年矛盾最突出的话题却不是怎么用明白大模型,而是企业用户对云数据中心、服务器集群,对大算力芯片的海量计算诉求没有得到充分满足。算力供需矛盾的背后,很重要的一点其实是算力闲置问题。

据研究机构IDC最新数据,2023年上半年加速服务器市场规模达到31亿美元,同比2022年上半年增长54%。其中GPU服务器依然是主导地位,占据92%的市场份额,达到30亿美元。同时NPU、ASIC和FPGA等非GPU加速服务器以同比17%的增速占有了8%的市场份额,达到2亿美元。

这里的GPU就是面向智算场景的GPGPU(General-purpose computing on graphics processing units,通用图形处理器)。其中大部分市场由英伟达占据,2022年,英伟达A100 GPU芯片供货量紧张,且价格水涨船高,而在中国市场,在10月新的禁令之前,中国特供版A800和H800 GPU也早已断货。

大模型算力应用基本可分为“训练”和“推理”两个场景。在推理场景,尽管对算力性能要求不高,但当训练好的模型部署到实际生产中时,会需要大量服务器进行并行网络计算,推理成本会骤然提升。

而训练场景所需的算力会更强,这一阶段,神经网络需要不止一台服务器进行大规模计算。由于模型训练有时间周期,算力满额意味着GPU卡实现了100%资源利用,但训练任务比较小对算力要求不高,也得占用一张卡,基本处于闲置状态。

据相关分析称,OpenAI在GPT-4的训练中使用了大约2.15e25的FLOPS,在大约25000个A100 GPU上进行了90到100天的训练,其算力利用率约为32%至36%。这种算力利用率低的情况在业内更加普遍。

钛媒体结合政策了解到的情况是,中国正主导构建用于数据处理的高性能通讯网络,以及多元异构的芯片算力(包括GPU、CPU、以及国产芯片等)的调度和管理问题。

算力闲置的本质逻辑

过去十年,分布式云计算构建经典的“削峰填谷”和“资源池化”,以更好地实现云服务的弹性调度。这种变化其实也在影响云服务的商业模式转变。

一位咨询机构云服务合伙人曾对钛媒体表示,过去云服务商依靠的正是虚机忙时和闲时调度,去获得超额的利润回报,也就是“超卖”,此时各家比拼的是谁的调度技术更优秀。

而大模型场景下,算力需要大规模集中式训练,服务器也无法被切分成单个虚机,怎样设计算子和算力调度,怎样满足大模型应用的高性能智算场景,这是云服务商在头疼、大模型创企或其他中小团队在反复提要求的部分。

不少领域实践者或学术专家进行分析,这一挑战也体现在大模型平台设计的工程性问题上。

例如,如何提升大规模分布式训练的计算效率一直是大模型预训练的一个核心问题。特别是在实际的AI集群环境中,会存在GPU之间的互联带宽受限或AI服务器之间的网络互联带宽有限。

大模型参数量巨大,意味着对显存的占用也大。过去小模型的结构不易有效进行计算和通信,但大模型规模已在TB级别,GPU显存大小基本在80G(以英伟达A100为例),单个GPU无法完全容纳整个模型训练,采用分布式训练是必然。这也同时导致了GPU通信问题,由于卡与卡之间存在的通信开销,增加一倍卡并不能带来线性的性能加速。

此外,卡数量增多后,过热、故障就会一定比例出现,这往往会导致训练中断、梯度爆炸、算法重跑一遍等,模型训练成本也会居高不下。

钛媒体注意到,业内出现了诸多专门为大规模并行计算设计的高性能分布式训练框架,并伴随大模型技术的深化而逐步创新。

有众所周知的大数据开发引擎Spark,专为深度学习开发的PyTorch,目前Pytorch官方也同样开发了分布式训练框架Accelerate供AI人士使用。而UC Berkeley RISELa开源的Ray(据称也是ChatGPT背后在使用的框架)和云托管产品AnyScale,微软开源的深度学习库DeepSpeed也备受欢迎。在从业者看来,尽管分布式训练框架非常多,但主流方案还是PyTorch+Megatron-LM+DeepSpeed。

目前在国内也有类似的分布式训练框架,例如潞晨科技的ColossalAI、一流科技的OneFlow,而对于国内在炼大模型的头部互联网厂商,如阿里的EPL(原名Whale)、华为的MindSpore、腾讯的AngelPTM等,市面上已有的框架并不能完全满足其诉求,也会设计相应的软件栈用于自身基础设施、硬件设施进行进一步定制和开发。

提高资源利用,分布式还能怎么创新?

基于GPU实现并行处理是常见手段。大模型训练中存在几种经典的分布式并行范式,分别为流水线并行(Pipeline Parallelism),数据并行(Data Parallelism)和张量并行(Tensor Parallesim)。微软开源的分布式训练框架FastSpeed就融合了这三种并行范式。

浪潮信息人工智能软件研发总监吴韶华的主张是,相比于经典的三维并用(张量并行+流水线并行+数据并行)方法,源2.0在三维并行策略的基础上提出了非均匀流水并行+优化器参数并行(ZeRO)+数据并行+损失计算分块的分布式计算方法。

这种计算方式能有效降低大模型训练过程中对于节点内AI芯片间通讯带宽的需求,有更广的适应性。对带宽的需求更小,同时也能获得非常高的性能表现。同时结合优化器参数并行,进一步降低内存需求,从而降低流水线路数,最大限度地合理利用计算资源,实现存储和计算的总体最佳性能。

他解释称,传统方式的内存分布在各个阶段非常不均衡,往往在第一阶段,其内存已经达到GPU上限,模型训练需要更多的计算设备和更长的流水并行,性能也不高。而非均匀流水方法,就是在划分流水时不再采用均匀划分方式,而是根据内存需求实现比较均匀的分配,以满足在有限硬件设备的模型训练。这种方式可有效缓解流水线头部与尾部的内存瓶颈,让模型在流水并行各阶段的内存占用量分布更均衡。

2023年,浪潮信息AI团队相继研发了OGAI大模型智算软件栈、源2.0大模型,从软硬协同层面去持续提升基础大模型的能力,同时通过开放算力发展生态去探索可能突破的场景。经过验证,源2.0大模型算力集群的线性扩展效率远高于同类千亿参数大模型。结合实践数据,浪潮信息协助客户将大模型训练的GPU峰值效率从30%提升至54%。

抢购算力,还没考虑怎么用

参照GenAI的整体走向,无论是提高模型参数量,还是提高数据质量规模,算力依旧是支撑大模型智能水平的核心驱力。要用足够大的算力,去支撑起足够精准的模型泛化。但摩尔定律放缓在说明某些现实问题:大模型训练所需算力,已经远超硬件加速器的处理速度,同时带来的能源问题、数据中心的能耗问题,还浮于冰面之下。

而中国市场,相较于美国整体上还是会有一些差距,主流的算力芯片和加速能力基本来自于英伟达,客户对国产芯片作为备选方案的需求仍然不足。

某靠近底层硬件研发的AI从业者在探讨中对钛媒体指出,“适配都存在一定的难度,也就是说想要做这件事就必须有额外的投入。国产GPU厂商也会考虑几点因素:一是用户对国产芯片这件事情的必要性,二是业务目标是否能达成;三是性能是否会有比较大的提升。”

这其实就带来个问题,如果选择适配国产GPU会做软件适配或更上层的模型能力,势必需要一定的时间,有些企业仍会通过诸多合规渠道购买芯片。或者,某些使用规模不大的实验室也会采用英伟达的消费级产品RTX 4090,这种方式性价比高,主要用于推理。

不过,这位从业者还注意到,“有些企业囤了很多先进的高性能芯片,但大家订购的第一想法其实并没有考虑到怎么使用,或者说对于怎么用好这个逻辑上多少存在些问题。”

在新一轮超级周期中,GenAI无疑是企业竞争的重点。企业仍需加大硬实力投入,算力资源优化的同时,也正时刻关注算法、数据带给模型增强的突破。

现如今预训练大模型的算法框架依然是基于Transformer经典架构,Transformer优势在于解决了原有循环神经网络无法理解上下文的问题,但Transformer同样存在局限性或者可优化的空间。

正如某AI大模型早期从业者曾对钛媒体强调,“从某些具体落地性上,算法比算力可能更为重要,我们会针对场景做很多算法上的创新,而这些问题往往是算力解决不了的。在没有更好算法的时候,你其实是不知道1000个GPU能带来多大的效果。”

算力,是最大的帮手,也成为最大的挑战。

(本文首发钛媒体APP,作者 | 杨丽)

转载请注明出处、作者和本文链接
声明:文章内容仅供参考、交流、学习、不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

扫描下载App