英特尔发布中国特供版7nm AI芯片Gaudi2，减少RDMA接口以符合出口管制规定

英特尔将于2024年推出台积电5nm制程Habana Gaudi3。预计到2025年，Gaudi将与英特尔Ponte Vecchio GPU产品进行架构与功能整合，推出新的GPU产品。

2023年7月11日在北京英特尔发布会上拍摄的英特尔Gaudi2 AI处理器产品（来源：钛媒体App编辑拍摄）

随着ChatGPT大模型和生成式AI热潮引发智能算力需求猛增，英伟达A100在国内销售紧俏之时，其强劲对手准备在国内入局。

钛媒体App获悉，7月11日，芯片巨头英特尔公司（Intel）发布面向中国市场、采用台积电7nm工艺的第二代Gaudi深度学习加速器Habana Gaudi2。

新的Gaudi2可便捷扩展、可运行大语言模型，加速AI训练及推理，运行ResNet-50的每瓦性能约是英伟达A100的2倍，性价比相较于AWS云中基于英伟达的解决方案高出40%，并预计今年9月性价比超越英伟达最新H100。英特尔称，凭借包括至强和Gaudi2在内的产品组合，新产品为中国市场提供更高的深度学习性能和效率，从而帮助构建中国AI的未来。

会后，英特尔高管对钛媒体App等表示，此次英特尔Habana Gaudi2是中国特供产品。相比国际版Gaudi2，面向中国市场推出的加速卡在性能上差别不大，而集成以太网RDMA端口数量从24个端口减到21个，以符合美国芯片出口管制规定。

英特尔强调，Gaudi2及下一代5nm Gaudi3都会在合法合规的情况下继续支持中国客户，预计Gaudi3也会推出中国特别版本。

“英特尔承诺遵守美国政府的所有出口要求，我们今天推出的Gaudi2版本完全符合规定。同样，英特尔不仅为中国市场，而且为全球市场构建服务器。我们所做的一切都符合美国的要求，目前不受任何限制。因此，我们今天谈到的一切都符合美国的要求，同时也满足中国市场不断增长的 AI 需求。”英特尔执行副总裁兼数据中心与人工智能事业部总经理Sandra Rivera对钛媒体App表示。

英特尔执行副总裁Sandra Rivera

据悉，2019年12月，英特尔斥资约20亿美元重金收购了成立于2016年的以色列人工智能（AI）芯片初创企业Habana Labs。在此之前，英特尔收购了FPGA厂商Altera、AI芯片公司Nervana，以增强英特尔数据中心业务技术能力。同时，英特尔还放弃了自家高性能计算加速卡Xeon Phi项目。

收购后的最近四年，英特尔加紧使Habana团队与英特尔内部业务整合。目前，Habana在英特尔数据中心与人工智能（DCAI）事业部独立运营其工程业务，负责人是Sandra Rivera。

2022年Intel Vision活动上，英特尔推出第二代深度学习芯片Habana Gaudi 2和Habana Greco，分别用于AI训练和AI推理。当时在BERT Tralning Throughput等模型测试中，性能是竞争对手Nvidia A100 80GB GPU的两倍左右。

不到一年后的今天，英特尔推出“中国特供”的 AI 芯片Habana Gaudi2。

据悉，第二代Gaudi2 AI深度学习夹层卡HL-225B专为数据中心实现大规模横向扩展而设计，HL-225B处理器符合美国工业与安全局（BIS）有关规定。该夹层卡符合OCP OAM1.1（开放计算平台之开放加速器模块）规范。而HL-225B夹层卡内置Gaudi HL-2080处理器技术，拥有24个完全可编程的第四代张量处理器核心（TPC）。这些核心原生设计能为广泛的深度学习工作负载加速。另外，英特尔Habana的SynapseAI软件套件，针对Gaudi平台深度学习业务进行了优化。

相比第一代，Gaudi2制造工艺由台积电16nm升级到台积电7nm，内存和缓存提高到96GB HBM2e和48MB SRAM，内存带宽升为2.4TB/s，并集成了专用媒体处理器。在ResNet-50模型测试中，Gaudi2比一代训练吞吐量提高了3倍，BERT模型的训练吞吐量提高了4.7倍。目前，单个Gaudi 2在ResNet-50模型中可达到非常稳定的5800个图像/每秒的吞吐量。

测试GPT-3方面，Gaudi2也表现出了强劲性能，在384个加速器上训练时间达311分钟，从256个加速器到384个加速器实现了近线性95%的扩展；Hugging Face评估中，Gaudi2运行Stable Diffusion、70亿以及1760亿参数BLOOMz模型时，AI 推理方面的表现在行业内保持领先，从而使英特尔Gaudi2成为仅有的两个提交GPT-3 LLM训练性能结果的芯片解决方案之一。

更重要的是，相比英伟达AI芯片，英特尔Gaudi2拥有性价比优势，能够降低大模型算力成本。目前，单独购买一颗Gaudi2 AI OCP 加速器模块 (OAM)的成本为7400美元-8000美元之间。这种显着的成本优势，加上英伟达A100/H800在国内供应紧张持续短缺，或使Gaudi2成为英伟达NVIDIA H100最重要的替代品。

不过在纵向扩展互联中，相比海外版，中国市场的Gaudi2每张芯片集成的专用于内部互联的100Gbps（RoCEv2 RDMA）以太网接口，从24个减至21个。

英特尔提到此项变化影响有限。英特尔Habana Labs首席运营官Eltan Medina告诉钛媒体App，根据模型的不同，特供版Gaudi2性能可能会有轻微的影响，但在很多数据训练扩展中，并不使用这三个端口，整体性能差别不大。

英特尔现场演示中，在第四代至强可扩展处理器上通过AMX加速指令运行文生图模型Stable Diffusion，用5.34秒就生成一张图片。另据Sandra Rivera透露，目前英特尔在 AI 算力方面形成了通用计算、深度学习加速、开放式软件环境三层的整体解决方案。

Sandra Rivera对钛媒体App表示，软件开发或者是开发者生态是英特尔多年的一个强项，在整个数据中心领域，其实真正在数据中心当中的软件生态，一个是x86的软件生态，另外一个是CUDA。英特尔的方法是让客户在oneAPI环境中提供大量技术支持，例如Hugging Face，只需几十秒就能把一些现有的模型调通，能够把它在Gaudi上做一些执行。

英特尔还透露，Gaudi2国内首批将与百度智能云、浪潮信息、美团、紫光新华三、超聚变、华勤技术等公司合作。其中，浪潮信息现场发布基于8颗Gaudi2加速卡HL-225B、双路第四代英特尔至强可扩展处理器的浪潮信息AI服务器NF5698G7；新华三则宣布即将适配Gaudi2，打造专为大模型训练的智能算力服务器H3C UniServer R5500 G6，算力提升3倍，GPT-4训练时间缩短70%。

对于制程，英特尔将于2024年推出台积电5nm制程Habana Gaudi3，将实现性能提升以及效能。Medina称得益于5nm，Gaudi3将实现性能“跃进”。预计2025年，Habana Gaudi将与英特尔Ponte Vecchio GPU产品进行架构与功能整合，推出新的GPU产品。

“目前更高端英特尔GPU还没有推出，在专用的训练和推理大模型方面，英特尔唯一方案只有Gaudi2。未来第四代，英特尔将统一Habana和AXG方面之间的路线图，进行更深层次的整合。”Medina此前预计，Gaudi仍将是英特尔至少未来几年针对 AI 工作负载的推荐解决方案。

对于英伟达的市场争夺，Sandra Rivera强调，市场需要替代品。他们（客户）非常欢迎英特尔在向大众部署 AI 方面发挥重要的领导作用。英特尔将与客户进行深入合作。

“几十年来，英特尔一直致力于把新的技术普及、普惠到各行各业，各种客户，不只是大客户，还有中型客户、小型客户。降低进入门槛，提高市场参与度，加快创新速度。接下来，我们希望很快通过与中国合作伙伴部署性价比解决方案，一起把技术推到最终用户手上。”Sandra Rivera表示。（本文首发钛媒体App，作者｜林志佳）

英特尔发布中国特供版7nm AI芯片Gaudi2，减少RDMA接口以符合出口管制规定｜硅基世界

敬原创，有钛度，得赞赏