生成式人工智能(GenAI)盛行,芯片是承托所有探索和可能性的基础。
“现在我们买不到,云厂商内部自己留着,我们跟云厂商也买不到。怎么谈下一步合作?”一家中国互联网企业的业务负责人近段时间表示。缺卡,不仅让这家企业的AI业务受到影响,也给为之服务的云厂商提出了质疑。
在中国,芯片需求非常旺盛。但众所周知的芯片禁令影响,尤其是今年10月美国对华半导体出口新一轮禁令的施压,英伟达“中国特供版”A800和H800等产品将受到影响。而放眼全球范围内,对用于训练和推理机器学习模型的GPU性能的需求增长,超过了整个行业的供给量,GPU也是稀缺资源。
亚马逊云科技开创了云厂商自研芯片的先河,以至于后来的云服务商也会以它为参照。
包括微软近期推出的AI加速计算的Maia 100芯片,谷歌云早先推出的 AI 张量处理单元TPU等,云厂商提供AI专用芯片或许能够在GPU紧缺时满足客户一定诉求,如何满足当前市场对AI算力高涨的需求,对所有云厂商而言,都是一道必答题。
比如,亚马逊云科技这两年其明显在加快自研芯片的脚步。从最悠久的虚拟化芯片Amazon Nitro,到基于ARM架构的通用计算芯片Amazon Graviton,以及用于人工智能训练和推理的两款专用芯片Amazon Trainium和Amazon Inferentia。
不久前的re:Invent全球大会上,亚马逊云科技正式宣布两款新型芯片Amazon Graviton 4和Amazon Trainium2。
亚马逊云科技一直在强调其追求,即找到更好的方法让云上业务负载获得更强的性能和极致的性价比。
尽管在英伟达GPU“一卡难求”的大环境下,头部的云厂商具备非常强的拿卡能力。在今年re:Invent大会另一个不容忽视的风向是,“亚马逊云科技正努力使自己成为云上提供英伟达GPU最好的云计算厂商。这是我们的诉求之一,”亚马逊云科技大中华区基础设施产品技术总监郭峰告诉钛媒体。
亚马逊云科技宣布了与英伟达的几项新合作:将提供首款搭载NVIDIA Grace Hopper超级芯片和Amazon UltraClusters技术的云AI超级计算机。同时,首款使用英伟达最新芯片GH200 NVL32的NVIDIA DGX云也将登陆亚马逊云科技。而双方合作开展的“Project Ceiba”合作项目,也被视为将会是世界上最大的云AI超级计算机,托管在亚马逊云科技云上,由英伟达工程师团队使用。
亚马逊云科技使用芯片和自研芯片的战略意图显而易见:对于有些客户基于“模型需要快速上线,采用很多已有的资源”的诉求,会选择英伟达GPU,亚马逊云科技会为用户提供尽可能全面的选择;
同时,用户自身有长期发展的需求,亚马逊云科技正提供新的SDK帮助用户使用自研芯片,用于大模型或GenAI相关研发场景。亚马逊云科技的策略是,坚持自研芯片,且采用了其核心云服务器EC2的企业,一般也会采购其自研芯片支持的EC2实例,这是已经被验证过且成功了的路子。根据官方公布的数据,“已经有超过5万客户在使用Graviton。其中TOP100的Amazon EC2客户,全部选择了基于自研芯片Graviton的EC2实例。”
整体来看,亚马逊云科技还在持续深化未来计算和AI能力平台,包括云基础设施相关的数据中心、存储、芯片,围绕生成式AI的端到端算力和数据基础服务,以及前端应用程序如Amazon Q等。如今,亚马逊云科技已经提供了超过600种类型的计算实例供广泛客户选择;据PitchBook数据,全球估值超过10亿美元初创独角兽公司中有80%以上都将工作负载运行在亚马逊云科技上。
客户需求和性价比驱动计算创新
以客户为视角,帮助客户提供不同负载下的能力支撑,还有很大创新空间。想要重新定义计算实例,离不开计算的核心——芯片。目前在云互联网厂商中,相对早地蹚过芯片设计流片的困难期,决定了一家企业在云市场竞争中的话语权。这也几乎是当前谷歌、微软、阿里等头部厂商都在做的事情。
想要自研芯片也并非一日之功。亚马逊云科技在2013年决定自研,也是源自客户对Amazon EC2提出的诸多诉求,这要求亚马逊云科技需要持续增加新实例,以满足各类业务需要。
当时,亚马逊云科技使用了针对X86的开源虚拟化Xen,允许多个虚机在一台物理机上运行。但有超过30%的处理因支持虚拟管理程序而浪费掉了,这项开支促使亚马逊云科技决定开发定制芯片,用于特定应用程序的工作负载。
2013年,亚马逊云科技与AMD开始合作,发布了Amazon EC2 C3实例。此时的亚马逊云科技云规模已经在不断扩大,亚马逊云科技看到性能提升不足对未来架构的限制。这也促使亚马逊云科技与Annapurna Labs合作,并在2015年推出Amazon EC2 C4实例,对存储和网络的卸载功能优化。与此同时,亚马逊云科技斥资3.5亿美元收购了Annapurna,这次收购也催生出后来的Project Nitro,即new Nitro,与此前跟Cavium合作推出的首款Nitro定制芯片作为区分。
此时,亚马逊云科技引入了C5实例,用另一个虚拟化技术KVM取代了Xen,并将虚拟机管理程序与ASIC更紧密地结合在一起。
继Nitro之后,亚马逊云科技将Arm芯片开发扩展到其他产品线,其中包括2018年首次推出的Graviton和Inferentia,以及2020年的Trainium。基于Arm设计的芯片这一举措,打破了亚马逊云科技对x86的依赖,开启了新架构时代,该架构现在支持多种配置来支持数据密集型工作负载。
今年新推的三款芯片和实例,根据官方信息钛媒体整理如下:
Amazon Graviton4,平均性能比Graviton3提升30%,对某些工作负载的加速更明显,数据库应用程序速度提升40%,大型Java应用程序速度提升45%。目前基于Graviton4的EC2 R8g实例的预览版已经推出。
Amazon Trainium2,用于生成式AI和机器学习训练,针对训练具有数千亿至数万亿参数的基础模型进行优化,相较Trainium性能提升多达4倍,内存提升3倍,能源效率(每瓦性能)提升多达2倍,并能在云上的EC2大规模集群中扩展至10万个芯片,最高提供65 exaflops的AI算力。
至于今年4月推出的Amazon Inferentia2芯片和Inf2实例,针对于大模型和生成式AI推理,与一代相比,Amazon Inferentia2的吞吐量提高4倍,延迟低至前者的1/10。
其实每一代芯片迭代都曾带来大幅度的性能提升,像Nitro已经迭代到第五代,为Amazon EC2加速实例创新奠定基础。Graviton过去五年也经历四次重大迭代,基于Graviton的Amazon EC2实例种类达到150多个,已经构建的Graviton处理器数量超过200万个。亚马逊云科技长期以来坚持的自研芯片战略,已经在客户需求的反哺中一路升级。
GenAI在全球范围成为一股重要力量
自证不如请客户来佐证。
以F1用上Graviton为例,F1几年前将其CFD模拟迁移至亚马逊云科技的高性能计算(HPC)平台,并引入基于Amazon Graviton2处理器的Amazon EC2 C6gn实例。这不仅使CFD模拟时间大幅缩短,还使成本降低了30%。随着基于Amazon Graviton3处理器的Amazon EC2 C7g实例的推出,F1又成为该实例首批使用的用户之一。
因为Graviton带来的性价比提升,已经吸引不少客户前来使用,包括Datadog、DirecTV、Discovery、SAP、Snowflake、Sprinklr、Stripe、Zendesk、Freewheel,还有中国的涂鸦智能、大宇无限等企业。
为此,Graviton3的EC2 C7g、M7g、R7g实例也于近日在亚马逊云科技中国(北京)区域和中国(宁夏)区域正式可用。这距离上一代Graviton2支持的EC2 M6g、C6g和R6g实例落地中国区已近三年。
不过,在GenAI趋势下,更多企业客户也在关注AI芯片。毕竟从采购芯片到训练大模型,实现推理应用,已经隔了好几座成本高山。据英伟达报道,其二季度收入的22%由单一云服务商推动,这其中自然包括亚马逊云科技。
安迪·贾西在今年财报电话会上强调,由于现阶段芯片需求量很高,英伟达等头部芯片公司的GPU往往供不应求,一些AI公司正在转向选择亚马逊云科技自研芯片处理业务。
这从Anthropic、Databricks、Helixon、Money Forward,以及Amazon Search团队的选择上可以理解,它们也通过亚马逊云科技使用Trainium2,进行大规模深度学习模型的训练工作。数据显示,客户目前可在数周就能训练完成一个具有三千亿参数的大语言模型。
“每瓦特的性能”也是亚马逊云科技公布的指标之一。影响芯片性能提升的一个主要瓶颈是能耗问题,保证每瓦特情况下能够输出更好的计算能力,才能够使计算环境更持续发展。
单看亚马逊云科技当前发布的最新芯片,在完成相同工作负载的前提下,已经比同类型芯片或上一代自研芯片所耗能源已经有倍数级的降低。
而当业内会认为接下来将是GenAI应用爆发之年,作为早一步感受到算力资源供给与需求变动的云厂商也早已加快行动。
(本文首发钛媒体APP,作者 | 杨丽)
根据《网络安全法》实名制要求,请绑定手机号后发表评论