英伟达DGX GH200新品发布仅过去半年多,今天,黄仁勋又一次在深夜引爆了全场。
钛媒体App获悉,北京时间11月13日晚上,美国芯片巨头英伟达(NVIDIA)发布世界上最强大的 AI 芯片——NVIDIA H200 Tensor Core GPU(图形处理器)。
新的英伟达 H200 是当前 H100 的升级产品,基于 NVIDIA Hopper 超级芯片架构,具有最高的性能和先进内存技术功能,针对于超大规模的大模型训练和推理,可增强生成式 AI 和高性能计算 (HPC) 工作负载。
H200 是首款提供每秒 4.8 TB速度、141GB HBM3e内存的 GPU 产品。与 H100 相比,H200 容量几乎翻倍、带宽增加 2.4 倍。在用于 Llama2、GPT-3等大模型推理或生成问题答案时,H200 性能较 H100 提高 60% 至90%(1.6-1.9倍)。因此,H200可部署在本地、云、混合云和边缘侧等各种类型的数据中心内部。
同时,与CPU(中央处理器)相比,H200在HPC下获得的结果速度达到一个“恐怖”的数据:提高110倍。
对于中国市场,11月14日上午,英伟达公司在邮件中向钛媒体App确认:如果没有获得出口许可证,H200将无法在中国市场销售。
据了解,英伟达NVIDIA H200将于2024年第二季度开始向全球客户和云服务厂商供货,预计将与AMD的MI300X AI芯片展开竞争。
具体来看,由于NVIDIA Hopper架构、TensorRT-LLM专用软件等软硬件技术加持,新的H200在超大模型训练和推理性能表现优异。与H100相比,H200在Llama 2(700亿参数)开源大模型的推理速度几乎翻倍,而未来的软件更新预计会带来H200的额外性能领先优势和改进。
据英伟达数据,在TF32 Tensor Core(张量核心)中,H200可达到989万亿次浮点运算;INT8张量核心下提供3,958 TFLOPS(每秒3958万亿次的浮点运算)。
不仅如此,基于H200芯片构建的HGX H200加速服务器平台,拥有 NVLink 和 NVSwitch 的高速互连支持。8个HGX H200则提供超过32 petaflops(每秒1000万亿次的浮点运算)的FP8深度学习计算和 1.1TB 聚合高带宽内存,从而为科学研究和 AI 等应用的工作负载提供更高的性能支持,包括超1750亿参数的大模型训练和推理。
据Anandtech分析,根据目前规格来看,H200的加速计算性能可以理解为半年前发布GH200 Hopper超级芯片的一半,而区别在于HBM3 替换为HBM3e、内存带宽从80GB提升至141GB、速度提升到4.8TB/秒,这使得英伟达能够提高内容的处理速度和带宽容量。而根据总带宽和内存总线宽度推算,与H100相比,H200的内存频率增加大约25%。
钛媒体App从英伟达处确认,如果没有出口许可,新的H200将不会销往中国,原因是H200参数高于美国商务部10月17日公布的性能红线:多个数字处理单元的集成电路(用于数据中心)总处理性能为2400-4800,“性能密度”大于1.6且小于5.92。
11月初,英伟达已向经销商公布“中国特供版”HGX H20、L20 PCle、L2 PCle产品信息,分别针对的是训练、推理和边缘场景,最快将于11月16日公布,量产时间为2023年12月至2024年1月。其中,HGX H20在带宽、计算速度等方面均有所限制,理论综合算力要比英伟达H100降80%左右,当然也会比H200更为“缩水”。
值得一提的是,除了H200之外,基于英伟达现在发售的基于Grace、Hopper以及Grace Hopper架构的 AI 芯片,该公司今天推出一种搭载4个Grace Hopper GH200 AI 芯片的新平台,称为NVIDIA Quad GH200。
Quad GH200提供288个ArmCPU内核和总计2.3TB的高速内存,将四个GH200叠加,以8 chips、4路NVLink拓扑相互连接,形成CPU+GPU共同加持的强大算力平台,从而安装在基础设施系统中,提供更易用、性能更强的算力支持。
据美国金融机构Raymond James透露,H100芯片成本仅3320美元,但英伟达对其客户的批量价格仍然高达2.5万至4万美元。这导致H100利润率或高达1000%,成为了有史以来最赚钱的一种芯片。
英伟达官网显示,NVIDIA H200将为40多台AI超级计算机提供支持。包括CoreWeave、亚马逊AWS、谷歌云、微软Azure、甲骨文云等公司将成为首批部署基于H200实例的云服务商。同时,华硕、戴尔科技、惠普、联想、Supermicro、纬创资通等系统集成商也会使用H200更新其现有系统。
同时,英伟达还宣布与Jupiter公司合作,将提供基于2.4万(23762)个GH200的新型超级计算机,功耗低到18.2兆瓦,将安装在德国于利希研究中心设施中,用于材料科学、药物发现、工业工程和量子计算领域的基础研究。该超算系统将于明年交付安装。
此外,英伟达还在官网暗示,明年公布的英伟达 B100 AI 芯片将有更大的性能升级。“NVIDIA Hopper 架构比之前实现了前所未有的性能飞跃。”
(本文首发钛媒体App,作者|林志佳)
根据《网络安全法》实名制要求,请绑定手机号后发表评论
中国没有他就做不了了,不会吧
4090还能开放吗?神仙打架别误伤群众啊。