2024T-EDGE文章顶部

GMI Cloud:为AI出海企业提供高稳定的GPU云解决方案|2024T-EDGE

稳定的GPU来自具有软件加持和极强运营能力的云平台。

GMI Cloud亚太区总裁King Cui

GMI Cloud亚太区总裁King Cui


“与互联网技术和移动互联网技术相比,如今的GPT4 / ChatGPT影响的用户还非常有限,AI技术还远远未到‘技术普惠点’,我们正处在‘1995年的互联网’时代。”

12月7日,GMI Cloud亚太区总裁King Cui出席参加了2024T-EDGE创新大会暨钛媒体财经年会的平行论坛EDGE Founders Demo Day,在现场分享了他们在AI出海大潮中的趋势洞察,并介绍了GMI Cloud在GPU云平台构建方面的探索。

以下为King 演讲精华:

AI出海大潮与算力需求

King Cui将云计算的发展分为三个阶段,每个阶段都标志着技术和社会的一次重大飞跃。

  • Cloud 1.0(2010-2015):Cloud Base,企业开始将传统的IDC业务迁移到云端,这一时期的云服务主要以裸金属形态存在,企业开始尝试和适应云的新模式。
  • Cloud 2.0(2016-2022):Cloud Native,用户和企业从简单的云上云转变为深度用云,PaaS 产品从裸金属 base 转变为VM及Container Base,客户开始更多地使用云厂商提供的PaaS产品,专注于自身业务的研发提效。
  • Cloud 3.0(2023年至今):Cloud 3.0标志着AI Native Cloud时代的到来,以 OpenAI发布 GPT 为起点,AI浪潮席卷全球。这一阶段的云产品形态与前两个阶段有显著不同,计算、存储和网络产品都发生了重大变化,如从CPU计算转向GPU计算,存储需求也从传统的文件存储、对象存储转变为需要更高速的存储,如GPFS,网络也同样需要适应GPU集群的高速网络需求。

图片来源:网络

AI推动了云计算的发展。然而,在这个AI时代,AI企业在全球的发展将是一个确定性趋势,未来三年将进入高速发展阶段。AI技术的发展速度和对人类生活的影响日益增强,尽管AI 技术的发展处于早期阶段,但已经展现出巨大的潜力和机会。截止至2024年8月,全球AI WEB产品总数共1717个,其中中国AI WEB产品数量280个,出海AI WEB 产品数量95个。也就是说,有34%的AI产品从一开始的定位就是全球化。

中国 AI 企业在海外市场的布局正在加速。然而,机会与挑战并存,在“AI三要素”(数据、算法和算力)中,算力——因其高昂的硬件成本和稳定运维的高难度,都是一个初创AI企业没有能力去自己承担的核心生产资料。

目前在AI出海过程中,以算力为中心的生产矛盾逐渐增多。具体矛盾主要表现在以下几个方面:

1、国内高端算力资源不足,导致业务进展缓慢;

2、AI Infra的建设经验不足,软件和硬件基础设施构建需消耗大量时间及经济成本;

3、供应商(机房、能源、设备等)可靠性、稳定性难保障,选型困难。

而所有上述问题产生的直接结果就是——AI Infra稳定性不足,导致公司承担了更多的经济以及时间成本。

以Meta为例, 其披露的报告显示,为期54天的预训练阶段中,总共出现了466次工作中断,其中47次是计划内的自动维护,419 次是意外的,且大部分都来自硬件问题,GPU又是最多的,占了其中的 58.7%。

然而,维持AI Infra层的稳定性并不是一件简单的事情。所以,这就意味着我们需要在组网、硬件、软件、工程化等方面做大量工作,以减少GPU的掉卡率,保持任务的连续性,最大化GPU的使用效率!

很多AI企业在选择Infra团队的时候,优先考虑的往往是单价最低的GPU。但其实,GPU集群的稳定性才是更为重要的考虑因素。稳定性越高,模型训练、研发整体成本才会下降。

所以,选择具有软件加持和极强运营能力的云平台,一定比单纯选择价格低的GPU硬件更具性价比。

GMI Cloud的解决方案

作为一个全栈AI应用平台,GMI Cloud在GPU硬件架构层和IaaS层拥有完全自研和掌控的硬件和云平台。在Iaas层GMI Cloud会基于硬件构建自己的Cloud云平台,把计算、存储、网络这些能力通过API的方式更好地提供给Paas层的客户。而在硬件层GMI Cloud会提供高端的GPU服务器,包括高速存储和高速网络能力。

图片来源:网络

GMI Cloud致力于支持AI应用开发者,提供高稳定性的GPU集群,以提高AI应用的研发效率和产品竞争力。

在Cluster Engine层面,GMI Cloud的Cluster Engine是一个端到端的全栈AI应用平台,从底层GPU硬件架构层到应用层,提供统一的资源管理和调度。GMI Cloud 通过Kubernetes和HPC  Slurm开展工作。GMI Cloud将Slurm应用到容器化中,实现硬件资源(尤其是GPU资源)像任务一样灵活调度和分配,并由云集群引擎统一管理,满足AI和HPC的资源需求。

图片来源:AI生成

除了软件能力,“验证体系”也是保证用户体验关键因素之一。GMI Cloud具有独特的双验证体系。作为NCP(Nvidia Cloud Partner),GMI Cloud的集群设计要首先通过经过Nvidia认证,从一开始构建集群的时候,构建方案就需要Nvidia review。GMI的集群构建完毕之后,英伟达会进行再次的check,形成一个双重的Nvidia认证体系。另一方面,GMI Cloud在给客户构建私有集群之前,自己也会对于整个硬件和系统做测试。包括单机和跨机的这种分布式模型的训练,GMI Cloud会做一些压力和功能测试。确保这个集群交给客户是完全可以运行的。在这套双验证体系的加持之下,GMI Cloud可以保证交付给客户的集群是一个完全可用的状态。

图片来源:AI生成

云服务不可能说永远不出问题,但是GMI Cloud会关注一旦出现问题,响应速度是否足够快,对问题的定位是否足够快,集群的恢复是否足够快。

GMI Cloud与GPU供应商、IDC合作伙伴间共筑了三角合作的关系,为客户提供更高水平的服务、更贴近源头的问题追溯。GMI Cloud提供24x7x365的全年全天候的监控和支持服务。一旦出现问题,GMI会以最快速度恢复我们的集群,减少故障时间,确保系统稳定性。

图片来源:AI生成

GMI Cloud目前为AI Infra选型提供两种方案,第一种是PRIVATE CLOUD,如果企业需要长期占有一个独立集群,GMI Cloud会推荐这种私有的PRIVATE CLOUD,GMI Cloud会帮助完成模型从底层到上层的全部优化,让企业“拎包入住”。如果只是临时使用一两张卡、用几天,那就推荐用ON-DEMAND来节约成本。

图片来源:AI生成

GMI Cloud的融资情况与发展规划

由Google X 的AI专家与硅谷精英共同参与创立的GMI Cloud是一家领先的AI Native Cloud 服务商,拥有遍布全球的数据中心网络,为企业AI应用提供最新、最优的GPU资源,为全球新创公司、研究机构和大型企业提供稳定安全、高效经济的AI云服务解决方案。

GMI Cloud凭借高稳定性的技术架构、强大的GPU供应链以及令人瞩目的GPU产品阵容(如拥有AI 强大算力的H100;能够精准平衡AI 成本与效率的H200;以及未来即将上线的具有卓越性能的GB200等),确保企业客户在高度数据安全与计算效能的基础上,高效低本地完成 AI 落地。

据悉,GMI Cloud在10月完成了A 轮8200 万美元融资,由Headline Asia领投,同时获得亚太区智能能源解决方案提供商Banpu (BANPU.BK)以及全球科技大厂纬创资通(3231.TW)的战略投资。这笔资金将用于科罗拉多州数据中心的建设,以强化GMI Cloud 在全球AI算力服务方面的布局。

在接下来的一年内,GMI Cloud的主要发展目标是继续提升GPU云服务的性能和稳定性,除了Cluster Engine以外,还将重点发展Inference Engine,解决AI推理相关需求。(本文首发于钛媒体APP,作者|郭虹妘 ,编辑|陶天宇)

转载请注明出处、作者和本文链接
声明:文章内容仅供参考、交流、学习、不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

快报

更多

19:15

江波龙:拟发行H股股票并在香港联交所主板上市

19:10

韩国监管机构据悉就“裸卖空”行为对巴克莱和花旗处以罚款

19:09

国泰航空经碳巿场Core Climate结算5万吨碳信用产品

19:07

明阳电路:实控人之一致行动人股价异动期间有卖出股票

19:06

东阿阿胶:控股股东之一致行动人增持公司股份达1%

19:06

交通运输部召开专家学者和企业协会座谈会

19:05

宝马集团将于2025 CES首发全景iDrive

18:53

通胀前景依然令人沮丧,交易员押注英国央行缓慢降息

18:53

港股草姬集团暗盘收涨28.53%

18:53

瑞芯微:已有SoC芯片应用在多种形态的机器人上

18:52

毕马威2024财年全球收入增长5.1%至384亿美元

18:51

惠誉预计2025年石油价格将从2024年的平均每桶80美元下降至每桶70美元

18:51

德勤中国:2025年中国内地和香港新股市场表现将会改善

18:51

硅业分会:本周工业硅现货市场成交清淡、价格下跌

18:50

6天4板卓翼科技:产品没有应用在AI眼镜相关领域,没有签署相关协议或订单

18:39

比利时钻石行业遇危机,比利时大量钻石贸易公司撤离

18:38

佳士得今年全球预计成交总额57亿美元,私人洽购成交总额增长41%

18:30

江西召开上市公司并购重组助力产业转型升级对接会

18:30

本田、日产回应“业务整合”传闻:目前尚未做出决定

18:17

央行、国家外汇局:在上海、北京等10省市优化跨国公司本外币一体化资金池业务试点政策

扫描下载App