2024T-EDGE文章详情顶部

大模型算力,宁畅不想拆盲盒

大模型算力,既是服务器厂商的机会,也可能成为洗牌的开始。

有钱就能做算力,已经成为过去式。

大模型对于算力的指数级需求,一度让不少企业蠢蠢欲动,2023年,光倒卖英伟达GPU卡就是一门来钱快、利润高的生意,但到了年末,部分企业发现即便有钱能买到GPU卡,算力却不是堆卡就能堆起来的。

量变引起质变,根本原因是大模型算力的复杂度变化,例如业内通常千卡集群训练千亿参数大模型,万卡集群才能较好训练万亿参数大模型,即便是精调等算力相对较小的需求,也存在着大量的算力浪费。

在通用算力为主的算力时代,互联网等上层应用基本趋于稳定,底层通用算力的优化也没有太多文章可做,但是大模型是全新的业务负载,本身还处于快速演进阶段,与之相匹配的算力也较难做到针对优化。

大模型算力,既是服务器厂商的机会,也可能成为洗牌的开始。

宁畅总裁秦晓宁指出,大模型在细分行业落地过程中,已经不再局限于算力性能这一单一竞争要素,面临算效、适配、应用等问题日益复杂,愈发需要系统性AI计算方案提供全方位、全周期支持。

算法协同优化、数据处理能力、模型可解释性以及与特定行业应用的融合度,都成为了智能计算能否成功推动技术创新和实际落地的核心因素。

大模型算力,是系统级工程

据此前报道,OpenAI训练GPT-4在大约25000个A100上训练了90到100天,算力利用率在32%到36%之间,被视为业内标杆的大模型尚且如此,可以想象,更多大模型一边摸索一遍训练,相当比例的算力都会白白浪费掉。

大模型与算力,是新时代的掘金者与卖水人,不管大模型发展得如何,为大模型提供算力的厂商赚得盆满钵满,但随着大模型行业的收敛,卖水这门生意也有了足够高的门槛。

秦晓宁提到,大模型的1.0阶段,即百模大战时期。流行这样一句话,大模型厂商第一要务就是购买更多的GPU服务器,很多算力提供商并不需要过多关注客户需求,大模型客户只需要更快更强的硬件产品。

2024年,大模型从参数竞赛进入到商业化、产业化的落地阶段,企业不仅需要算力硬件,更多是整个支撑能力体系的升级,就像“木桶原理”一样,任何一个短板都可能造成系统的瓶颈。

举例来说,算、网、存、管四个方面,超大规模算力集群需要超强的稳定性,同时需要多台集群GB级数据规模的通信能力,存储的读写和容量也要跟上大模型的需求,管理需要减少损失、设备故障等方面问题。

“今年在产业垂直落地的场景当中,需要我们精调的行业模型客户越来越多,而且客户对于算效的需求不像前一类客户需求那么强烈,他们需要极高的模型精度和效率,95%是行业模型精度的门槛,在To C场景,60%的精准度已经可以满足普通大众的需求了。”秦晓宁透露。

从大模型精度方面看,需要考虑的因素也更复杂。例如行业数据本身涉及到内部信息、客户数据等,需要考虑数据的安全合规性,在此基础上还要进行高质量的数据治理,做好清洗、标注等一系列工作,避免低质量数据导致模型的置换问题。另外,还需要算法、调优硬件加速包括软件工具等各方面的支持。

当大模型训练完之后,在部署阶段需要确保训练推理业务之间的软硬件数据,实现无缝实时对接,同时模型部署阶段会有很多的冗余,需要进一步做好模型的精简、蒸馏、压缩,算力平台也可以实时加速推理,算力调度可实现轻量级一键式甚至分钟级部署。

在管理大模型应用的过程中,需要一个稳定的运行环境,同时对整体资源进行实时全面监管,高效稳定的体系。

“不管是万卡时代的算效彩票还是深入行业的精度盲盒,以及高效调用的服务瓶颈,这是我们当下急需要解决的问题。”秦晓宁总结道。

全局智算,服务器厂商的战略升维

大模型算力的复杂度,已经让算力厂商不得不加速迭代自己的技术栈,宁畅的应对之策是全局智算战略,比起过去以提供硬件产品为主的能力,宁畅相当于给自己来了一次能力升维。

全局智算共分为六个层面,最底层是硬件资源层,也是广泛熟知硬的产品,包括传统通用服务器、GPU、整机柜、存储、网络多种形态产品。

硬件层之上是集群设计层,这一层不是将海量硬件进行简单的连接堆叠,而是分析整个业务运行的特征和系统的量化需求,提供从微架构、网络、存储、AI模型特征等一系列的方案化设计。

集群层之上是算子优化层,宁畅为了降本增效提供了整体AI算子自优化能力,减少模型执行的时间,降低了资源的消耗,提高了能效比,使得大模型能够在有效的资源上高效地运行。

再往上AI中台层,目前宁畅已经全面支持NVIDIA AI Enterprise,并基于此提供AI算力系统深度整合的工作栈。

更高是业务层和场景层,宁畅可以根据不同的业务和场景,针对性优化大模型效果。如此,宁畅可以提供从咨询、测试、运维、售后的全服务场景,满足客户从大模型的开发、适配、部署、全场景的全行业的需求,并且根据客户的不同阶段,提供极具性价比定制化智算部署方案。

以某车企的大模型算力需求为例,宁畅首先搭建了集群互联方案,其中搭载了液冷整机柜产品,实现了电液盲插,非常方便运维和部署。

在软件层面,由于自动驾驶对实时性和延迟性要求非常高,针对于自动驾驶特定的算法和模型,软件栈提供了优化的深度学习框架和加速库,包括了宁畅为自动驾驶场景的预训练模型、模型压缩、加速技术,以及车辆特定的硬件平台优化深度学习库。

为了确保自动驾驶系统的安全性,车企需要进行大量的模拟测试,软件栈包含模拟和测试工具,支持虚拟环境创建、场景重现,测试用例自动生成和执行。自动驾驶企业还需要处理和标注大量的数据,宁畅能够支持数据预处理自动标注等,提高了数据的利用效率,加速模型的训练过程。

大模型算力是全新的复杂系统,不论是宁畅还是其他算力供应商,都在参与并构建新时代的算力生态,这也将成为未来一段时间的行业主旋律。

(本文首发钛媒体APP 作者|张帅,欢迎添加作者mr3right爆料、交流)

转载请注明出处、作者和本文链接
声明:文章内容仅供参考、交流、学习、不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

AWARDS-文章详情右上

快报

更多

2024-11-16 22:44

嘉实基金和平安基金相继宣布与普华永道解约,涉及378只基金

2024-11-16 22:30

超30000公里,中国图迈机器人远程手术再获突破

2024-11-16 22:29

李庚希凭电影《我们一起摇太阳》获第37届金鸡奖最佳女主角

2024-11-16 22:12

百亿级股票私募仓位指数创今年以来单周加仓幅度最高纪录

2024-11-16 21:30

挪威地产大亨、亿万富翁Olav Thon离世,享年101岁

2024-11-16 20:51

山东对8类家电开展以旧换新,最高可享受补贴1.6万元

2024-11-16 20:43

深圳计划鼓励并购重组,已经起草征求意见稿

2024-11-16 20:39

日本青森县陆奥湾发生4.6级地震

2024-11-16 20:20

北京加快存量数据中心提质升级

2024-11-16 20:17

以太坊站上3200美元/枚,日内涨3.56%

2024-11-16 20:16

11月16日新闻联播速览22条

2024-11-16 19:56

智己汽车与Momenta、英伟达官宣合作,打造行业首批索尔(Thor)芯片量产智驾方案

2024-11-16 19:44

工业和信息化部:深入实施医药工业数智化转型行动,培育世界一流医药企业

2024-11-16 19:43

国家卫生健康委:以重大科技项目和政策协同为抓手,力争在重大原创性成果产出等方面全面提升

2024-11-16 19:22

杨植麟:kimi每月用户规模达到3600万

2024-11-16 19:19

海南旅游市场升温,今年前10月三大机场进港旅客逾两千万人次

2024-11-16 19:04

David Tepper:中国股票仓位接近四成

2024-11-16 18:47

李家超与多位东盟国家领导人会面,望支持香港尽早加入RCEP

2024-11-16 18:16

中蒙边境一日游线路恢复

2024-11-16 18:13

我国首座大型浮式天然气液化装置(FLNG)基本建成

扫描下载App