炎热的夏季,冲个凉水澡或者泡个水浴是消暑的好方法。而在服务器内部核心结构,尤其是CPU、GPU,最高温度可达50~60度,高温之下,传统风冷的降温效果已接近极限,换个方式——如果给服务器冲个“凉水澡”,或者泡在水里,热交换后的温度降低效果会极佳。由此,随着AI算力暴增驱动,液冷市场规模正快速增长。
AI需求涌现,数据中心进入液冷时代
AI已经成为当下各行各业关注的焦点,如何实现“人工智能+”是各行业实现弯道超车的关键抓手之一。在此背景下,作为AI算力供给的底层基础设施——数据中心,也面临更大的需求,以及更高的要求。秦淮数据集团CEO吴华鹏曾公开表示,在AI浪潮的推动下,中国数据中心市场将以每年22%-25%的速度增长,到2030年,国内算力规模将达到52GW-63GW。
AI算力需求的暴增,让原本几千瓦,最多10KW的标准通用算力机柜不在能满足当下的需求。GPU的应用将单机柜功率提升至了几十千瓦,甚至可以突破100KW,万国数据中国区联席总裁梁艳曾表示,现阶段,国内很多大厂单机柜密度已达到70~100KW。
以英伟达最新发布的Blackwell GB200 GPU异构计算为例,其单机柜功耗高达120kW,相当于CPU通用计算单机柜功耗的10-20倍。
显然,传统的供冷方式已经不能满足日益增长的算力需求。英特尔资深技术专家对钛媒体APP表示,传统风冷环境中,风速越快,散热效果越好,但是当散热需求达到一定程度后,这种增益开始衰减,“如果要进一步提升散热功能的话,性价比会越来越低,”该专家指出,“与此同时,风扇的可靠性也会越来越低。”
当下,液冷已成为数据中心提升供冷能力以满足日益增长的机柜密度与功率的最佳途径。钛媒体APP通过对行业观察了解到,仅采用传统风冷技术的数据中心PUE极限值为1.25,而采用液冷技术后,数据中心PUE值可低于1.1。
据科智咨询预计,2024年中国液冷数据中心市场将同比增长53%,市场规模将增长至236亿元;预计2022年—2027年,中国液冷数据中心市场将以59%的复合增长率持续蓬勃发展;预计到2027年,随着AI系列应用的规模化落地以及液冷生态的日趋成熟,市场规模将突破千亿大关。
值得注意的是,在前不久刚刚举办的WAIC上,浪潮信息、中科曙光等企业带来了全新的液冷解决方案。浪潮信息展示了支持多元算力和多模算法的新一代模块化液冷智算中心,该模块化液冷智算中心遵循“以系统为核心”的设计理念,从算效、能效、调度管理、交付等方面,实现了整体性能的优化。中科曙光也在大会现场带来了全新的浸没式液冷解决方案,据中科曙光展区工作人员对钛媒体APP表示,该款液冷解决方案采用了相变浸没式液冷,冷却液为电子氟化液,可应用于高密度的智算中心。
另一方面,钛媒体APP注意到,英特尔也于近期推出了下一代G-Flow浸没式液冷机柜相关技术。该技术采用的是单相浸没式液冷,值得注意的是,在这套解决方案中,冷却液采用的是埃克森美孚最新研发的无PFAS浸没式冷却液(某种碳氢合成油),相较于传统的氟化液更为环保。
性价比是液冷技术落地的关键
虽然液冷技术在数据中心行业已经有比较多大规模成熟的应用出现,不过,在选择供冷技术的时候性价比仍然是用户最为关心的一个话题。
“现阶段,大规模应用液冷与传统风冷相比,建设成本差别并不大,但是后期所节省的电费,让大规模应用液冷的数据中心在运营过程中比传统风冷数据中心降低不少,整体降低了运营成本。”绿色云图CEO胡世轩对钛媒体APP表示。
据赛迪顾问发布的《2023中国液冷应用市场研究报告》,2022年液冷数据中心1kW的散热成本为近6500元,相比2021年已经下降了54.2%,预计2023年1kW的散热成本有望降至5000元左右,与传统风冷的建设成本已基本持平。
从技术路线上看,目前广泛受到关注的液冷技术主要分为两类:浸没式液冷、冷板式液冷。以目前包括浪潮信息、宁畅、阿里云、曙光等在内的中国液冷行业头部玩家,以及英特尔等国际科技巨头的布局来看,冷板式液冷与浸没式液冷属于未来比较可行的液冷路径。
就目前应用情况来看,受改造难易度、成本等因素的影响,冷板式液冷市场占有率较高,据IDC数据显示,2023上半年,中国液冷服务器市场中,冷板式占比达90%。不过,英特尔资深技术专家告诉钛媒体APP,虽然目前冷板式液冷市场占有率比较高,但是不能忽视的是,浸没式液冷的增长速度明显高于冷板式液冷。
其实从前面提到的WAIC展会上不同厂商分别带来的浸没式与冷板式液冷的解决方案就不难看出,目前冷板式液冷与浸没式液冷各有优缺点,数据中心液冷应用处于“两条腿”走路的状态。
从市场需求上看,无论是浸没式液冷,还是冷板式液冷,用户在选择的时候考虑的因素主要有两个。
一个是安全可靠性。众所周知服务器内部由各类精密电子元器件组成,而冷板式液冷使用的冷却液体为水和丙二醇水溶液,具有导电性,一旦漏液会造成服务器损坏。如何确保不漏液,并做好漏液后的防护措施是冷板式液冷所面临的首要挑战。
目前,针对漏液问题,业界普遍采用的应对方案是安装漏液检测系统,当发现冷却液泄露时,进行告警,尽快定位泄露节点进行修复。“当小型泄露发生时,这种处理办法尚为有效,但当出现液柱大口喷射情况时,突发且短时间内扩散可导致系统宕机,漏液检测系统无法规避事故损害。”浪潮信息相关负责人告诉钛媒体APP。
据钛媒体APP了解,为了从根源上防止漏液对服务器造成损害,浪潮信息首创了一种可以使得液冷系统二次侧均为负压的动力单元——液环式真空CDU,由于管路内均为负压,因此彻底杜绝了漏液隐患。同时,这项技术创新突破了液冷循环系统只能采用高压水泵,才能实现液体循环流动的“定律”,实现了仅依靠真空泵通过不同传感器控制多腔室功能切换,即可实现流体的循环流动,在技术极简化同时也实现了可靠性的大幅提升,将有效推动冷板式液冷技术的普及。
在浸没式液冷方面,由于服务器要浸泡在冷却液中,就对冷却液的腐蚀性、安全性等方面提出了更高的要求。针对此,埃克森美孚合成基础油业务部门亚太市场总监王欣告诉钛媒体APP,原先常见的用于浸没式液冷的含PFAS的氟化液因为污染性较强,本身不易被降解,现在已经逐步被注重环保的公司所淘汰,“在此背景下,埃克森美孚研发出了新的无PFAS浸没式冷却液,已经在与英特尔的合作中被验证是可以用于浸没式液冷设备之中,”王欣指出,“而这种无PFAS浸没式冷却液因为不含PFAS,整体对环境,对人类都是安全的。”
除了安全可靠性以外,用户在应用液冷过程中关注的问题就是成本问题。成本问题包括了采购成本、机房改造成本/难易度、后期运营成本等等诸多方面。
采购成本方面,随着液冷技术的不断成熟,无论是冷板式液冷,还是浸没式液冷,其成本相较于前几年已经有明显下降,正如前文所述,对于大型、超大型数据中心而言,采用液冷技术的成本已经几乎与传统风冷持平。
值得一提的是,在浸没式液冷方面,将原本的氟化液换成无PFAS浸没式冷却液以后,除了更环保以外,无PFAS浸没式冷却液的采购成本也比氟化液低不少,且据英特尔资深技术专家告诉钛媒体APP,采用埃克森美孚的无PFAS浸没式冷却液,使用寿命可达10~12年,“理论上在生命周期内事不需要更换冷却液的,”该名专家进一步表示,“另一方面,在设计的时候,我们也添加了过滤装置,确保冷却液的纯净度。”
另一方面,相较于传统的氟化液,无PFAS浸没式冷却液的流动性也更高,粘度更低,冷却效果也更好。
改造成本/难易度方面,目前绝大多数冷板式液冷的改造成本要优于浸没式液冷,这也是目前冷板式液冷市场占比遥遥领先的原因之一。目前市面上常见的冷板式液冷基本都采用工厂预制模式,提供一体化交付的能力。
不过随着技术的不断发展,浸没式液冷部署难度及成本也越来越低,以英特尔最新发布的G-Flow浸没式液冷机柜技术为例,英特尔资深技术专家告诉钛媒体APP,该技术相较于传统的单相浸没式液冷而言,对机房改造少,运用了成熟的技术组装,不引入新的技术挑战,从而降低实施风险,“能部署冷板式液冷的机房,都可以部署G-Flow浸没式液冷机柜。”该名负责人如是说。
运营成本方面,采用液冷的数据中心所消耗的电费要比传统风冷数据中心低很多。另一方面,相较于传统风冷数据中心,采用液冷的数据中心故障率也有所下降。
随着技术愈发成熟,液冷已经成为数据中心不可或缺的供冷方式。不过王欣与胡世轩都曾向钛媒体APP表示,用户在选择供冷方式的时候,对于性价比的要求是最高的,而液冷技术大规模部署的成本已经与传统风冷持平,显然液冷市场已经来到了应用的爆发点,数据中心已经步入了液冷时代。
技术仍在演进
虽然数据中心已经进入了液冷时代,不过对于哪种液冷技术是最优解的争论声一直没有停歇。业内目前有多种声音。
有的认为,冷板式液冷凭借其更高的兼容性、更简单的部署方式,以及更低的技术壁垒,将是数据中心应用液冷的最优解。
浪潮信息数据中心产品部副总经理李金波曾对钛媒体APP表示,相比于其他液冷方式,冷板式液冷在对数据中心与服务器架构的改造程度、产业链成熟度、部件更换运维便捷性、初期投资等方面均有显著优势。
有的认为,短期来看冷板式液冷将是数据中心液冷的最优解,但当单机柜功率进一步提升,达到100KW甚至更高的时候,浸没式液冷将取代冷板式液冷,成为液冷的“最终形态”。
而在胡世轩与英特尔资深技术专家看来,浸没式液冷与冷板式液冷两者会以两条平行技术路径的方式,一直向前发展。“冷板式液冷与浸没式液冷目前,以及未来很长一段时间都会处于并存的状态,并不会出现一个会取代另一个的情况。”英特尔资深技术专家进一步指出。
而无论是冷板式,还是浸没式,技术也都在不断演进,以英特尔最新发布的G-Flow浸没式液冷为例,原有的单相浸没式液冷技术存在泵入机柜的液体大部分不流经CPU的散热器(流阻大),但机柜流速增加时CPU的温度变化不显著;散热器中有自然对流导致的液体流动,但速度较慢,散热能力有限等问题。
英特尔最新推出的G-Flow浸没式液冷在散热器和机柜流体出口之间增加导流管,利用重力或泵的吸力,驱动液体流过散热器,相当于利用了液体本身的重力,加快了液体流速(1米的高差可达成4.4M/S的流速)的同时,也让液体充分的流过设备,从而提升了散热效率。
另一方面,冷板式液冷技术虽然相对于浸没式更为成熟,但技术进步的脚步依旧没有停下,为了降低漏液引发事故风险,浪潮信息首创了液环式真空CDU;为了提高标准化水平,降低交付周期,众多液冷厂商都推出了预制化产品。同样以浪潮信息为例,浪潮信息高通过预制化环路管网整体系统,经BIM制图设计好后,所有阀门管件工厂预制,现场拼接即可。通过管路及冷源预制化,该环节的施工时间从一个月缩短至一周。
在产业上下游众多企业看来,技术不断演进的过程中,仍需要结合产业上下游各方的力量,共同推进液冷技术不断完善,从而能更好的在数据中心中应用。“由于液冷产业发展处于起步阶段,产业分工尚未明确导致整个产业链的协同性不强,众多链条企业更多依靠’作坊式生产‘的方式来完成产品及服务交付,产业链缺乏具备高度资源整合能力的链主企业,从而导致资源配置效率不高、浪费严重。”浪潮信息相关负责人告诉钛媒体APP,“这时候就需要有一家具备高度整合能力的企业站出来,联合产业上下游企业,提高产业链协同性。”
无独有偶,英特尔资深技术专家也曾对钛媒体APP表示,液冷产业的发展首先需要包括服务器供应商在内的众多硬件厂商的配合,提高服务器等硬件设备的兼容性。
其次,单就浸没式液冷而言,还需要液体供应商提供高可靠性、高性能、低成本的冷却液,据钛媒体了解到,自从3M此前宣布将在2025年底之前退出生产含氟聚合物、氟化液和基于全氟和多氟烷基物质(PFAS)的添加剂产品业务之后,埃克森美孚可以说是目前市面上研发能力与产品力最强的浸没式液冷冷却液供应商。
当AI算力需求不断增加,数据中心在向智算中心演进的过程中,液冷技术已经逐渐成为智算中心供冷最优选项,而技术还在不断演进,产业仍需完善。不过液冷在数据中心应用的爆发已经开始。
(本文首发于钛媒体APP,作者|张申宇,编辑丨盖虹达)
根据《网络安全法》实名制要求,请绑定手机号后发表评论