2024T-EDGE文章详情顶部

亚马逊云科技:云厂商做自研芯片的两个「选择」

自研芯片并不是云厂商开展业务的必需,但却决定了云厂商的天花板。

自研芯片会是改变云计算游戏规则的关键么?亚马逊云科技认为的确如此。

在2021年亚马逊云科技re:Invent全球大会上,亚马逊云科技公布了其最新芯片研究成果,包括自研CPU处理器Amazon Graviton3,这是亚马逊云科技自研设计的第三颗CPU处理器。

同时,继去年宣布研制机器学习训练芯片Amazon Trainium后,亚马逊云科技于今年宣布提供基于Trainium的实例。与P4d实例相比,由Amazon Trainium芯片支持的Trn1实例训练深度学习模型的成本降低多达40%。

在固态硬盘层面,基于Amazon Nitro SSD固态硬盘的Im4gn/Is4gen/ I4i实例也正式发布。通过自研的 Amazon Nitro SSD,Im4gn/Is4gen/I4i实例提供高达 30 TB 的 NVMe 存储,与上一代I3实例相比,I/O 延迟降低了 60%,延迟可变性降低了 75%。

云计算发展十余年来,正在变得越来越硬,直至底层芯片。同开创云时代一样,自研芯片的风潮很大程度上也是由亚马逊云科技开始,国内外云厂商不断跟进,例如阿里云自研CPU倚天710、AI推理芯片含光800等,腾讯云的AI推理芯片“紫霄”等。

自研芯片并不是云厂商开展业务的必需,但却决定了云厂商的天花板,象征着云巨头的身份。

亚马逊云科技大中华区产品部总经理顾凡

亚马逊云科技大中华区产品部总经理顾凡

对于自研芯片的驱动力,亚马逊云科技大中华区产品部总经理顾凡是这样解释的,“客户对云上性价比的追求永远不会有止境,同时,未来云上的新型工作负载对于计算创新的要求也是无止境的。而发生在底层的创新,往往最具备颠覆性。半导体和芯片层面的创新会是改变云计算游戏规则一个非常重要的能力。”

自研芯片比之云服务更具挑战,即使是亚马逊云科技,也在自研芯片的过程中也面临诸多权衡的选择。

提高频率or增加内核宽度?

Graviton3相较于Graviton2多出200亿个晶体管,如何利用这200亿个晶体管,来实现最佳的性能和效率,是亚马逊在这一代芯片中要深入思考的问题。

亚马逊云科技大中华区产品部计算与存储总监周舸说道,“原则很简单,我们得从工作负载去看,从客户真正怎么使用这些设备去看,找到我们的起点。”

通常提升CPU性能的两个方向,提高频率或者增加内核数量,提高频率确实可以快速提升性能,而且大多数时候这种性能提升对所有的工作负载都有效。

但提高频率有局限性,以现在半导体的功率和能力,提高频率意味着产生更多的热量,散热会是一个大问题,尤其是在超大规模数据中心里,高频带来高能耗,高能耗带来高热量,高热量要求更高的散热效率,反而提升了耗电量,企业用云成本不降反升。

因此亚马逊云科技选择让内核的“宽度”增加,即使用指令并行的方式,让内核在同一个时钟周期里执行更多的指令、完成更多的任务,这样不用增加内核数量也能提高业务运行效率。

根据亚马逊云科技给出的数据,由Amazon Graviton3处理器支持的C7g实例与由 Graviton2 处理器支持的当前一代 C6g 实例相比,可将计算密集型工作负载性能提高多达25%。Amazon Graviton3处理器与Graviton2相比,为科学计算、机器学习和媒体编码工作负载提供高达2倍的浮点运算性能,为加密工作负载速度提升高达2倍,为机器学习工作负载提供高达3倍的性能。

增加核数or降低内存时延

如前所述,增加核数也是提高芯片性能快且有效的办法,Graviton从第一代到第二代,亚马逊云科技就选择增加核数,实现了不错的效果。

新的选择题出现,亚马逊云科技是将剩下的晶体管继续增加更多的核,还是去增加CPU内存的带宽和降低它的延迟?

“到了第三代的时候,我们研究在Graviton2上运行的工作负载,发现有大量工作负载是大数据类型,大量是微服务架构的,甚至一些HPC的服务等,这些服务对内存的带宽和延时的敏感度非常高,我们的判断是——在内存下工夫,会比增加核数的效果更好。”周舸表示。

C7g实例是云中第一个采用最新DDR5内存的实例,与基于Amazon Graviton2的实例相比,它提高了50%的内存带宽,从而提高了科学计算等内存密集型应用的性能。

与基于Amazon Graviton2的实例相比,C7g实例的网络带宽也高出20%。C7g 实例支持 Elastic Fabric Adapter (EFA),允许应用程序直接与网络接口卡通信,提供更低且更一致的延迟,提高需要大规模并行处理(如高性能计算和视频编码)的应用程序的性能。

客户的反馈也说明了这一点,Twitter部分业务性能提升20%到80%;F1流体仿真在Graviton2的基础上提升40%。

与此同时,通过增加内存带宽和降低内存时延的方法,Graviton3的功耗降低了60%,保持了更好的能效比,企业客户无需付出很高的成本代价,也能获得性能的提升。

“亚马逊云科技是云厂商里面最早做自研芯片的,今天我们拥有Nitro、Graviton、人工智能机器学习自研芯片三条产品线,自研芯片需要经验积累,并不是花钱就能买来的,亚马逊云科技从对云上所有客户工作负载的深刻理解,逆向工作设计芯片,是我们在重构云计算底座自研芯片里面的最大优势。”顾凡表示。

转载请注明出处、作者和本文链接
声明:文章内容仅供参考、交流、学习、不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

AWARDS-文章详情右上

快报

更多

2024-11-16 22:44

嘉实基金和平安基金相继宣布与普华永道解约,涉及378只基金

2024-11-16 22:30

超30000公里,中国图迈机器人远程手术再获突破

2024-11-16 22:29

李庚希凭电影《我们一起摇太阳》获第37届金鸡奖最佳女主角

2024-11-16 22:12

百亿级股票私募仓位指数创今年以来单周加仓幅度最高纪录

2024-11-16 21:30

挪威地产大亨、亿万富翁Olav Thon离世,享年101岁

2024-11-16 20:51

山东对8类家电开展以旧换新,最高可享受补贴1.6万元

2024-11-16 20:43

深圳计划鼓励并购重组,已经起草征求意见稿

2024-11-16 20:39

日本青森县陆奥湾发生4.6级地震

2024-11-16 20:20

北京加快存量数据中心提质升级

2024-11-16 20:17

以太坊站上3200美元/枚,日内涨3.56%

2024-11-16 20:16

11月16日新闻联播速览22条

2024-11-16 19:56

智己汽车与Momenta、英伟达官宣合作,打造行业首批索尔(Thor)芯片量产智驾方案

2024-11-16 19:44

工业和信息化部:深入实施医药工业数智化转型行动,培育世界一流医药企业

2024-11-16 19:43

国家卫生健康委:以重大科技项目和政策协同为抓手,力争在重大原创性成果产出等方面全面提升

2024-11-16 19:22

杨植麟:kimi每月用户规模达到3600万

2024-11-16 19:19

海南旅游市场升温,今年前10月三大机场进港旅客逾两千万人次

2024-11-16 19:04

David Tepper:中国股票仓位接近四成

2024-11-16 18:47

李家超与多位东盟国家领导人会面,望支持香港尽早加入RCEP

2024-11-16 18:16

中蒙边境一日游线路恢复

2024-11-16 18:13

我国首座大型浮式天然气液化装置(FLNG)基本建成

扫描下载App