通信效率超98%！壁仞科技实现中国首个三种异构芯片混训技术

海外限令实施近一年后，AI 芯片公司壁仞科技（Biren Technology）如今罕见发声，公布其在算力架构层面的最新技术进展。

9月5日，钛媒体AGI独家获悉，即将在2024全球AI芯片峰会上，壁仞科技将首次公布壁仞自主原创的异构GPU协同训练方案HGCT，业界首次支持3种及以上异构GPU混合训练同一个大模型，用一套统一方案支持多种不同型号、不同厂商的GPU，而且一行代码适配多种框架。

壁仞HGCT的异构协同通信效率大于98%、端到端训练效率90-95%，从而突破了大模型异构算力孤岛难题。

壁仞科技副总裁、AI软件首席架构师丁云帆向钛媒体AGI独家表示，这是业界首次支持3种及以上（壁仞GPU+英伟达GPU+其他国产芯片）异构GPU同时训练一个大模型。同时，目前壁仞科技打造的软硬一体、全栈优化、异构协同、开源开放的大模型整体解决方案可以实现千卡集群、千亿参数的自动断点续训小于10分钟，15天连续训练不中断，4天连续训练无故障。

壁仞科技还透露，其正联合客户、合作伙伴、科研机构共同推动异构GPU协同训练生态，具体包括：中国移动、中国电信、商汤科技、国网智能电网研究院有限公司、上海智能算力科技有限公司、上海人工智能实验室、中国信息通信研究院等。

据悉，在此之前，AI Infra公司无问芯穹的4+2芯片，最多支持2种GPU同时训练。

壁仞科技成立于2019年，主要研发高性能通用GPU，致力于做自主原创的高性能GPU软硬件体系，打造国产自主智能计算产业生态。

壁仞科技创始人、董事长、CEO张文曾表示，“芯片行业特别是通用智能芯片行业，是典型的资本密集和人才密集型的行业，加上大规模场景应用，构成了推动企业迈向成功的三大要素。”

投融资层面，钛媒体App了解到，截至目前，壁仞科技共完成总额超过50亿元人民币的融资，投资方包括启明创投、IDG资本、华登中国，平安集团、高瓴创投、格力创投、松禾资本、云晖资本、国盛资本、招商局资本等机构，是中国GPU芯片领域重要的“独角兽”企业。

(图片来源：钛媒体App编辑拍摄）

实际上，算力作为数字经济的核心生产力，是当前推动AI、大数据、物联网等技术创新与应用的基础支撑，而GPU和 AI 芯片则是算力中的核心要素。

随着ChatGPT引发全球 AI 大模型热潮，算力需求不断增长，研发成本不断提升，同时各国面临“主权AI”的争夺。那么，如何在有限的大模型算力和集群规模下，利用软件优化效率和异构集成方法，从而提高芯片性能，以及增长算力规模，就变得异常重要了。

但当前，英伟达和国产芯片之间的异构协同，即不同的GPU软件栈如何相互融合，是当前围绕国产算力如何变得好用的重要课题之一。

以上海临港的一个集群为例，其使用了22家国产芯片公司的58款 AI 芯片产品，通过多样芯片扩大算力供给，使得适配训练框架消耗较长，总投入成本达到约10000人天。其中，适配成本约为3人天/算子，模型适配成本约为10人天/模型，通信库和运行时适配成本约为500人天。同时大量的异构芯片形成了算力孤岛，无法有效聚合支持更大模型训练的算力需求。

丁云帆坦言，当前异构GPU协同训练仍然存在诸多挑战，如异构GPU互联互通难、异构GPU通信效率低、异构GPU协同训练木桶效益、异构GPU协同调度难、如何兼容不同硬件(英伟达、多种国产芯片)等。

为了解决用户需求和技术挑战，壁仞科技团队攻坚异构GPU训练难点，自主研发出原创异构GPU协同训练方案HGCT，通过异构调度、异构通信、异构拆分三层架构，实现了一套统一方案支持多种不同型号、不同厂商的GPU，业界首次支持3种及以上异构GPU混合训练同一个大模型。

壁仞科技表示，这一异构GPU协同训练方案对于行业端有两个意义：1、该方案最终价值实现了国产GPU和英伟达GPU的异构共存，突破异构算力孤岛难题，加快国产GPU的落地迁移，助力国产大模型落地；2、该方案赋能整个算力产业发展，壁仞HGCT方案具备普适性、易用性、兼容性，助力最终客户实现多种异构算力聚合，最大化异构GPU集群利用效率。

另外，基于已落地的千卡算力集群和技术能力，壁仞科技还推出BIRENSUPA生态方案，基于开放的 AI 算力软件生态体系，赋能运营商、智算中心、大模型、能源、金融等领域的客户和开发者。

“AI 芯片是一个技术密集型的产业，首先要有足够强的技术，这不是‘纸上谈兵’，而是需要人才、资金和产业领域的认知度，芯片不能犯错，只要有一处错误，有可能就是致命错误。因此，企业需跨过很多障碍，市场也需要给 AI 芯片企业更多的耐心。”丁云帆对钛媒体App表示。

（本文首发于钛媒体App，作者｜林志佳，编辑｜胡润峰）

发表评论

0 / 300

根据《网络安全法》实名制要求，请绑定手机号后发表评论

请登录后输入评论内容

结束
一行代码适配多种框架，这个好啊
回复 2024.09.06 · via h5
KeyNG
壁仞科技突破了大模型异构算力孤岛难题
回复 2024.09.05 · via android
White83652
加油，国产芯片儿
回复 2024.09.05 · via iphone
坠落在天空的陨石
壁仞科技是中国GPU芯片儿领域重要的独角兽企业
回复 2024.09.05 · via h5
Freehearttodo
AI芯片儿是一个技术密集型的产业
回复 2024.09.05 · via pc

通信效率超98%！壁仞科技实现中国首个三种异构芯片混训技术｜钛媒体独家

敬原创，有钛度，得赞赏