2024ITValue-文章详情顶部

英伟达“超神”的背后:AI厂商迫切地在MoE模型上寻求算力新解法

钛度号
MoE模型剑指算力效率:优化算法,压榨性能。

文 | 智能相对论,作者 | 陈泊丞

在过去的一年多时间内,英伟达破天荒地完成了市值的“三级跳”。

一年前,英伟达的市值并尚不足1万亿美元,位居谷歌母公司Alphabet、亚马逊、苹果和微软等科技巨头之后。

时至今日,英伟达市值突破3万亿美元,超越苹果,仅次于微软。

这样的成就归功于英伟达在AI芯片领域的显著优势。随着生成式AI进入规模化爆发阶段,算力需求愈发膨胀,由此英伟达的AI芯片便成了市场的“香饽饽”。

然而,市场对算力的需求远超大众的想象,英伟达的高端芯片也是一卡难求,在这个节点上AI行业不得不在其他层面上寻求破局算力荒的新解法。

如今,在算法架构上,MoE混合专家模型凭借其在算力效率上的显著优势持续走红,成为越来越多AI厂商共同探索的新方向。

那么,MoE模型的走红,是否真的能为AI行业破解算力荒?

MoE模型剑指算力效率:优化算法,压榨性能

区别于稠密(Dense)模型,MoE模型采用采用稀疏激活机制,在处理任务的过程中往往可以根据不同的任务需求,只需要激活一部分专家网络即可,而非激活全部参数,从而很好地提高了计算效率,更高效地利用计算资源。

比如,阿里巴巴的Qwen1.5-MoE-A2.7B模型在总参数量为143亿的情况下,每次推理只激活27亿参数。类似的,DeepSeek-MoE 16B的总参数量为164亿,但每次推理只激活约28亿的参数等等。

以上这种设计,就有效平衡了模型的性能与计算资源的使用效率。

因此,尽管MoE模型通常拥有更多的参数,但由于其稀疏性,训练开销可以显著降低。又比如,在实践中,使用Qwen1.5-MoE-A2.7B相比于Qwen1.5-7B,训练成本显著降低了75%。

再以浪潮信息的源2.0-M32开源MoE模型来说,我们发现,源2.0-M32在2颗CPU,80GB内存的单台服务器上即可部署高性能推理服务,而Llama3-70B则需要在4颗80G显存的GPU服务器上才能完成部署和运行。

通过这样的对比,就可以发现,凭借MoE模型在算力效率上的显著优势便能在AI基础设施层面减少投入,缓解对高端GPU芯片的过度依赖。根据推算性能测试,如今源2.0-M32的单Token推理算力需求是Llama3-70B的1/19。

之所以能达到这样的效果,是因为MoE模型通过将模型划分为多个小型的专家网络,而这种划分允许模型在保持性能的同时,减少所需的存储空间和内存带宽。由于在训练过程中模型大小的减少,MoE模型需要的计算资源也随之减少,这意味着相比于同等性能的密集模型,MoE可以以更低的硬件成本和更短的训练时间完成训练。

可以说,MoE模型本质上是一种高效的Scaling技术,在允许参数规模拓展的过程中也为算力投入提供了一个较好的解决方案,让大模型在保证规模和精度的同时具备了加速落地的可能。

更少的算力是否意味着性能打折?

尽管MoE模型可以用较少的算力去进行训练,但这并不意味着其性能会大打折扣。

在实践中,MoE模型通过细粒度专家的设计、非从头训练的初始化方法和带有共享及路由专家的路由机制等技术创新,使模型在保持较小参数量的同时,能够激活并利用更加精细的计算资源。这也就使得MoE模型在保持高性能的同时,有效降低了计算资源消耗。

简单对比一下MoE模型和Dense模型的计算性能,源2.0-M32在支持BF16精度的2颗CPU服务器上,约20小时就能完成1万条样本的全量微调。而在同样的CPU服务器上,Llama3-70B完成全量微调则是需要约16天的时间。

由此来说,MoE模型在计算性能上并没有因为算力的问题而大打折扣,反而还提升了不少。同样的算力支持,MoE模型可以产出更智能的应用和实现更高效的性能。

这样的结果涉及MoE模型多种算法的创新和优化。MoE模型通过引入专家网络(Expert Networks)和门控机制(Gating Mechanism)实现了模型的稀疏化和模块化,但是模型的性能问题依旧还没有得到很好的解决和优化。

随后,行业继续从不同的角度对MoE模型的性能提升进行探索。其中,QLoRA微调技术是针对预训练模型的,通过对专家网络的参数进行低秩分解,将高维参数矩阵分解为低秩矩阵的乘积。然后对这些低秩矩阵和量化参数进行微调,而不是整个专家网络参数,进一步提升模型的性能。

同时,微软又提出了一个端到端的MoE训练和推理解决方案DeepSpeed-MoE,其通过深度优化MoE在并行训练中的通信,减少通信开销,并实现高效的模型并行。此外,DeepSpeed-MoE还提出了基于微调的专家排序机制,可以根据训练过程中专家的损失动态调整输入样本到专家的分配,提升效果。

总的来说,针对MoE模型的性能问题,业内一直在致力于创新和探索新的算法和技术来进行提升和优化。目前,MoE所展现出了巨大的性能潜力,并不输Dense模型。

写在最后

现阶段,算力吃紧是不争的事实,日趋激烈的算力需求促使了英伟达的“超神”故事。但是,AI大模型厂商们也并非坐以待毙,针对算法架构层面的创新和优化持续涌现,MoE模型的走红正预示着AI行业进入了算法+基础设施两手抓的阶段。

可以预见的是,MoE模型的持续迭代在解决AI算力荒的同时也在跨越式地提升AI模型的性能,把人工智能带入一个全新的发展阶段。胡适曾提到一种经典的战略思想:大胆假设,小心求证。

从某种程度来说,MoE模型的走红,恰恰是这一战略思路的呈现。AI行业对算力、性能等问题的探讨,在假设和求证中,MoE模型为人工智能找到了一条更为清晰的发展之路。

本文系作者 智能相对论 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

创新场景TOP50-文章右上

快报

更多

2024-09-07 22:56

受台风影响,广西紧急转移安置4683人

2024-09-07 22:46

ChatGPT网站的月度访问总量遭遇断崖式暴跌

2024-09-07 22:23

中天金融清偿方案出炉,剥离地产聚焦券商与保险

2024-09-07 21:28

海南“第一高楼”被超级台风吹“没了”?项目方回应:一切安好

2024-09-07 21:11

美国众议院9日将就《生物安全法案》投票

2024-09-07 20:55

台风“摩羯”致海南35千伏及以上变电站停运79座,正加快抢修

2024-09-07 20:43

美的展出AI ECO智慧节能解决方案 | IFA 2024

2024-09-07 20:24

台风“摩羯”造成文昌经济损失327亿元

2024-09-07 20:16

雷诺CEO:电动汽车销售放缓,欧洲汽车业或面临150亿欧元碳排放罚款

2024-09-07 20:15

9月7日新闻联播速览26条

2024-09-07 19:58

台风“摩羯”造成海南4人死亡,95人受伤

2024-09-07 19:35

生态环境部:年底将把钢铁等重点排放行业纳入全国碳排放权交易市场

2024-09-07 19:28

广东保险业累计接获台风“摩羯”报案2088件,已支付赔款4308.7万元

2024-09-07 19:25

中美商贸工作组举行第二次副部长级会议

2024-09-07 19:10

今日18时起,海南全省旅游客运车辆恢复运营

2024-09-07 19:03

两部门紧急预拨2.7亿元中央自然灾害救灾资金

2024-09-07 19:02

韩国称朝鲜连续四天向韩放飞气球

2024-09-07 18:48

台风“摩羯”已致菲律宾20人死亡

2024-09-07 18:40

NASA将蓝色起源火星任务推迟至明年

2024-09-07 18:39

标普上调约旦本外币长期主权信用评级至BB-

扫描下载App