探访百度阳泉云计算中心,百度AI的底气从何而来?

目前,阳泉云计算中心是由CPU通用计算+GPU异构计算+XPU新一代AI处理架构所组成的强大算力平台。

题图来源@视觉中国

题图来源@视觉中国

2018年底,百度宣布技术体系架构整合ABC智能云事业部升级为智能云事业群组(ACG),同时承载人工智能toB业务和云业务;搜索公司及各BG的运维、基础架构和集团级共享平台整合至基础技术体系(TG)。

百度创始人、董事长李彦宏称此次组织架构调整将强化集中资源“打大仗、打硬仗”的能力,帮助百度客户完成智能化转型、早日迈入AI时代。“百度将打造AI时代最领先的技术平台,实现前端业务和技术平台的资源高效统筹及组织全面协同。”

而数据中心作为上述一切业务的基础,是百度发力AI的根基。

目前,百度在阳泉、顺义、南京等地区都已部署数据中心。本周,钛媒体探访了百度阳泉云计算中心,该中心是百度自建的第一个超大规模数据中心,也是亚洲规模最大的数据中心。

如图所示,阳泉云计算中心一期分为八个区域,而每一个区域则通过一条环状长廊连接在一起,在发生紧急状况时工作人员能够灵活调度。

如图所示,阳泉云计算中心分为八个模组楼,而每一个区域则通过一条环状长廊连接在一起,在发生紧急状况时工作人员能够灵活调度。

就在刚刚过去的2019年春节,百度抗住了春晚红包互动活动的数据流冲击,阳泉云计算数据中心功不可没。

“春晚的数据流可以用惊涛骇浪来形容。全球观众互动次数达到208亿次,春晚数据流量预计每秒峰值5000万次,每分钟峰值10亿次。”百度系统部总监张炳华说道。

靠近用户的阳泉云计算中心

目前,百度在阳泉、顺义、南京等多个地区都已部署数据中心。其中,阳泉中心是百度自建的第一个超大规模数据中心,从2011年9月选址到2018年9月一期整体交付,历时7年,直至今日,阳泉云计算中心仍在不停的建设、扩展中。

百度阳泉云计算中心规划建筑面积超过20万平米,按照T3+标准设计,服务器装机能力超过28万台。一期已建成投产建筑面积约12万平方米,建设涵盖8个高标准模组楼,机房满载可提供约6000个40A机柜、承载16万多台服务器。为百度智能云、百度App、百度地图、智能城市、小度、Apollo等百度内外部的产品和厂商提供强劲的计算能力。

  • 选址

张炳华表示,百度在东、南、西北各大区都有数据中心选址布局,和大部分公司一样,具体选到哪可能有各种因素考量,从技术上看,主要考察以下6个方面的因素,最后综合平衡选择。

第一,就是环境地理条件。远离地震、海啸、台风等自然灾害地区的,除此之外,还要考虑气候条件,气候适宜有利于降低成本;第二,政策支持力度 ;第三,电力、水力的丰富度,丰富的电力和水源供应,是建设数据中心的必备条件;而且,电价也是要重点考量因素,电力成本占运营成本的60、70%;第四,网络技术条件,地方很好,政策也好,网络接入能力好不好,能不能接入运营商骨干网,也是选址需要重点考虑的点;第五,交通环境;第六,人才条件。而选择在阳泉,则是考虑百度的业务类型,以及靠近用户,提升用户体验。

据介绍,目前百度阳泉云计算中心使用百度自主研发高性能交换机,提供超大规模的网络吞吐能力,支持10G、25G的通用计算网络接入和100G的AI高速无损网络互联技术。

在数据中心外部,百度网络构建了三个时延圈:从数据中心覆盖用户时延不超过30ms,从POP点覆盖用户的时延不超过10ms,从CDN覆盖用户的时延不超过2ms,确保全国用户的全面覆盖和就近接入。在数据中心内部,百度通过大带宽、低时延、无损网络,把数据中心数十万台服务器连接成为一个超级计算机。

  • 优化

数据中心建设周期长,在规划过程中必须具备前瞻性。在这几年陆续建设过程中,各种先进技术都在逐渐被运用到阳泉云计算中心。其中,数据中心模块化技术、整机柜服务器技术成为了数据中心国家技术标准。其他不断成熟应用的领先技术包括AHU风扇墙、市电直供+HVDC、OCU等等。

目前,该中心已上线服务器超过15万台、年均PUE 低至1.09、超过300万个CPU核、存储容量超过了6EB。

图为天蝎整机柜服务器。2012年开始规划设计时,决定取消架空地板的设计,全部按照整机柜交付模式设计,从卸货平台、走廊、电梯到机房全程实现无障碍交付设计,阳泉云计算中心的服务器,全部是以整机柜服务器方式设计制造的。

图为“天蝎”整机柜服务器。2012年开始规划设计时,决定取消架空地板的设计,全部按照整机柜交付模式设计,从卸货平台、走廊、电梯到机房全程实现无障碍交付设计,阳泉云计算中心的服务器,全部是以整机柜服务器方式设计制造和交付的。

张炳华介绍到,PUE (Power Usage Effectiveness,电力使用效率),是国际上通行的衡量数据中心能源效率的指标,PUE值是指数据中心总能耗(供电、制冷、照明、IT)与IT能耗之比。PUE值越接近于1,表示效率越高。

“数据中心成本中,电力成本占了60%-70%,降低PUE,可以直接降低数据中心的运营成本,提高产品的竞争能力。通过技术创新,提高数据中心能效,对行业有极大的示范作用和带动作用,同时,可以减少能源消耗,减少CO2排放。”

百度阳泉云计算中心监控中心

百度阳泉云计算中心监控中心,如屏幕所示,实际当天的PUE为1.06,还要低于1.09这一数值。

除了PUE以外,数据中心的机架规模、功率密度、运行稳定性、运营成本等,都是数据中心的核心指标。

对标国际巨头,百度阳泉云计算中心数据中心单体规模、算力、存储容量方面上非常强大,比如:采用“天蝎”整机柜服务器、“冰山”冷存储系统、“X-MAN” AI超级计算平台等;在数据中心基础设施架构非常领先,比如:高效供电、免费冷却、智能控制,并与服务器、网络设备间的协同创新,达到最佳匹配效果。

  • 安全

业务安全及用户体验对于任何一个数据中心来说都是至关紧要的。百度智能云产业智能化业务负责人李硕介绍到,百度采用分层机制,基本能够做到N+1的服务模式,即一个用户可以通过多个入口来访问百度的服务,若访问数据时物理服务器出现故障,会通过智慧调度系统实现分层处理。

“对于相对比较冷的数据,比如阳泉和青岛各有备份,在网盘中就不会有对应的数据,但即使该数据在10年内没有被用到,我们当前在使用时也能很快访问到,这个是和底层完全剥离的。如果是非常火的数据,会在多个系统中增加备份,这样南方的用户可以在广州访问,北方的用户可以在阳泉或青岛访问。”

李硕表示:“随机关掉百度的任何一个数据中心,我们访问依旧没有任何问题,到今天为止依然是这样,这是上层服务设计需要做到的。”

在管理上,阳泉数据中心与北京总部实时联动。阳泉数据中心团队主要负责数据中心7*24时值班,负责现场运营管理、故障处理和维护保养,业务层面的部署和调度由总部统一调度。

为百度AI提供超强算力

2018年底,百度刚刚发布自主研发的超级AI计算平台X-MAN3.0。该平台专为AI深度学习场景优化设计,每秒完成2000万亿次深度神经网络计算,极大的加快了AI深度学习模型的训练速度。

就在阳泉云计算中心,钛媒体看到了“传说中”的AI计算集群。“冷板式液冷技术已经在百度X-MAN 2.0上规模应用了。”据张炳华介绍,2017年上线的X-MAN 2.0,是国内首个采用液体冷却技术的GPU解决方案,实现了超高的散热效率,规模应用后,可以去除制冷机组,全面实现无冷机运行。

AI计算集群

AI计算集群

目前,阳泉云计算中心是由CPU通用计算+GPU异构计算+XPU新一代AI处理架构所组成的强大算力平台。不仅仅是百度搜索、度秘、智能云、基础技术、新兴业务的基础,更是百度发力人工智能、自动驾驶、AI的重要基石。

张炳华对钛媒体说道,这些算力平台定义了AI时代的基础设施标准,并为百度AI技术多年积累和业务实践的集大成——百度大脑提供了强大的算力平台。而算力平台之上的百度大脑,则为百度的AI业务提供了强有力的算法和数据支持。

“我们都希望通过开源和开放,把中国的数据中心产业生态做好,缩小与国际先进水平的差距,大家一起想办法把蛋糕做大,把规模效益做起来,这样的话,每个参与者都是受益者。ODCC每年发布的几十项成果,这些成果都是由各个会员单位贡献的,这些个成果都是开放的。随着这个生态的规模越来越大,产业链越来越成熟,也越来越得到行业的认可。”(本文首发钛媒体,作者/赵宇航)

本文系作者 赵宇航 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
  • 给小编加鸡腿🍗
  • 爱了爱了😁
  • 挺有深度的,不错
  • 紧跟时事,赞一个👍🏻👍🏻
  • 真不错,收藏了
  • 写的很不错,关注了
  • 都没有那么简单
  • 这么厉害的吗
  • 学到了学到了
  • 商场如战场,竞争激烈啊
  • 行业发展都是有周期的
  • 企业的发展都不是一番风顺的
  • 说的好有道理😄
  • 内容值得人们反思
  • 数据还是很详细的
  • 内容很精彩,夸一夸
  • 又学到了很多知识
  • 内容很详细👍🏻
  • 小编辛苦了
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • 期待把莆田医院吸来的钱,用好地方,感恩,阿门!

    回复 2019.04.12 · via iphone

快报

更多

14:39

广东沙尘天气预计至4月17日结束

14:12

陈雨菲女单夺冠、刘圣书/谭宁女双夺冠,亚锦赛国羽双金收官

13:45

北京轨道交通已全线恢复正常运营

13:05

国医名师、空军特色医学中心皮肤科创始人蔡瑞康逝世

12:56

孟加拉国将大型工业用户的天然气价格提高33%

12:21

清华大学金融科技研究院周道许:解决培育耐心资本问题,政策工具要从直接输血向间接赋能转变

12:18

4月13日新闻联播速览23条

12:12

下周(4月14日-20日)市场大事预告

12:04

两部门:推动乡村地名信息服务与寄递物流下乡、农村电商、普惠金融等深度融合

12:01

俄总统新闻秘书:普京与特朗普会晤准备尚未就绪

11:33

中航光电:大宗原材料尤其是黄金价格上涨对公司经营成本影响可控

11:09

商务部新闻发言人就美方豁免部分产品的“对等关税”答记者问

10:57

印度药企负责人:美国若对药品加征关税,成本将最终转给美国民众

10:51

上市公司掀起回购增持分红热潮,“护盘”资金上限超千亿

10:51

财信证券:当前A股市净率处于历史较低水平,中长期配置价值显著

10:37

汉威科技:取得人形机器人5亿订单为不实信息

10:18

中信建投:短期内美债利率中枢或上移,宽幅震荡

09:46

3月个人住房新发放贷款加权平均利率约为3.1%,同比下降约60个基点

09:45

中欧双方团队就电动车谈判开始接触

09:43

鄂霍次克海发生5.8级地震,震源深度360千米

90
1
76

扫描下载App