海外限令实施近一年后,AI 芯片公司壁仞科技(Biren Technology)如今罕见发声,公布其在算力架构层面的最新技术进展。
9月5日,钛媒体AGI独家获悉,即将在2024全球AI芯片峰会上,壁仞科技将首次公布壁仞自主原创的异构GPU协同训练方案HGCT,业界首次支持3种及以上异构GPU混合训练同一个大模型,用一套统一方案支持多种不同型号、不同厂商的GPU,而且一行代码适配多种框架。
壁仞HGCT的异构协同通信效率大于98%、端到端训练效率90-95%,从而突破了大模型异构算力孤岛难题。
壁仞科技副总裁、AI软件首席架构师丁云帆向钛媒体AGI独家表示,这是业界首次支持3种及以上(壁仞GPU+英伟达GPU+其他国产芯片)异构GPU同时训练一个大模型。同时,目前壁仞科技打造的软硬一体、全栈优化、异构协同、开源开放的大模型整体解决方案可以实现千卡集群、千亿参数的自动断点续训小于10分钟,15天连续训练不中断,4天连续训练无故障。
壁仞科技还透露,其正联合客户、合作伙伴、科研机构共同推动异构GPU协同训练生态,具体包括:中国移动、中国电信、商汤科技、国网智能电网研究院有限公司、上海智能算力科技有限公司、上海人工智能实验室、中国信息通信研究院等。
据悉,在此之前,AI Infra公司无问芯穹的4+2芯片,最多支持2种GPU同时训练。
壁仞科技成立于2019年,主要研发高性能通用GPU,致力于做自主原创的高性能GPU软硬件体系,打造国产自主智能计算产业生态。
壁仞科技创始人、董事长、CEO张文曾表示,“芯片行业特别是通用智能芯片行业,是典型的资本密集和人才密集型的行业,加上大规模场景应用,构成了推动企业迈向成功的三大要素。”
投融资层面,钛媒体App了解到,截至目前,壁仞科技共完成总额超过50亿元人民币的融资,投资方包括启明创投、IDG资本、华登中国,平安集团、高瓴创投、格力创投、松禾资本、云晖资本、国盛资本、招商局资本等机构,是中国GPU芯片领域重要的“独角兽”企业。
实际上,算力作为数字经济的核心生产力,是当前推动AI、大数据、物联网等技术创新与应用的基础支撑,而GPU和 AI 芯片则是算力中的核心要素。
随着ChatGPT引发全球 AI 大模型热潮,算力需求不断增长,研发成本不断提升,同时各国面临“主权AI”的争夺。那么,如何在有限的大模型算力和集群规模下,利用软件优化效率和异构集成方法,从而提高芯片性能,以及增长算力规模,就变得异常重要了。
但当前,英伟达和国产芯片之间的异构协同,即不同的GPU软件栈如何相互融合,是当前围绕国产算力如何变得好用的重要课题之一。
以上海临港的一个集群为例,其使用了22家国产芯片公司的58款 AI 芯片产品,通过多样芯片扩大算力供给,使得适配训练框架消耗较长,总投入成本达到约10000人天。其中,适配成本约为3人天/算子,模型适配成本约为10人天/模型,通信库和运行时适配成本约为500人天。同时大量的异构芯片形成了算力孤岛,无法有效聚合支持更大模型训练的算力需求。
丁云帆坦言,当前异构GPU协同训练仍然存在诸多挑战,如异构GPU互联互通难、异构GPU通信效率低、异构GPU协同训练木桶效益、异构GPU协同调度难、如何兼容不同硬件(英伟达、多种国产芯片)等。
为了解决用户需求和技术挑战,壁仞科技团队攻坚异构GPU训练难点,自主研发出原创异构GPU协同训练方案HGCT,通过异构调度、异构通信、异构拆分三层架构,实现了一套统一方案支持多种不同型号、不同厂商的GPU,业界首次支持3种及以上异构GPU混合训练同一个大模型。
壁仞科技表示,这一异构GPU协同训练方案对于行业端有两个意义:1、该方案最终价值实现了国产GPU和英伟达GPU的异构共存,突破异构算力孤岛难题,加快国产GPU的落地迁移,助力国产大模型落地;2、该方案赋能整个算力产业发展,壁仞HGCT方案具备普适性、易用性、兼容性,助力最终客户实现多种异构算力聚合,最大化异构GPU集群利用效率。
另外,基于已落地的千卡算力集群和技术能力,壁仞科技还推出BIRENSUPA生态方案,基于开放的 AI 算力软件生态体系,赋能运营商、智算中心、大模型、能源、金融等领域的客户和开发者。
“AI 芯片是一个技术密集型的产业,首先要有足够强的技术,这不是‘纸上谈兵’,而是需要人才、资金和产业领域的认知度,芯片不能犯错,只要有一处错误,有可能就是致命错误。因此,企业需跨过很多障碍,市场也需要给 AI 芯片企业更多的耐心。”丁云帆对钛媒体App表示。
(本文首发于钛媒体App,作者|林志佳,编辑|胡润峰)
根据《网络安全法》实名制要求,请绑定手机号后发表评论
一行代码适配多种框架,这个好啊
壁仞科技突破了大模型异构算力孤岛难题
加油,国产芯片儿
壁仞科技是中国GPU芯片儿领域重要的独角兽企业
AI芯片儿是一个技术密集型的产业