2024T-EDGE文章详情顶部

腾讯云存储面向AIGC全面升级,搭载自研存储引擎 | 钛快讯

AI大模型的研发生产各环节都涉及海量的数据处理。

钛媒体App消息,4月8日,腾讯云宣布云存储解决方案面向AIGC场景全面升级,能够针对AI大模型数据采集清洗、训练、推理、数据治理全流程提供全面、高效的云存储支持。数据显示,采用腾讯云AIGC云存储解决方案,可将大模型的数据清洗和训练效率均提升一倍,需要的时间缩短一半。

AI大模型的研发生产流程,分成数据采集与清洗、模型训练、推理三大环节,各环节都涉及海量的数据处理。在数据采集与清洗环节,由于原始训练数据规模海量,且来源多样,对存储技术提出了多协议支持、高性能、大带宽的需求。

在数据清洗环节,大数据引擎需要快速地读取并过滤出有效数据,COS通过自研数据加速器GooseFS提升数据访问性能,可实现高达数TBps的读取带宽,支撑计算高速运行,大大提升数据清洗效率。

在模型训练环节,通常需要每2-4小时保存一次训练成果,以便能在GPU故障时时能回滚,因此快速地读写checkpoint(检查点)文件也成了能否高效利用算力资源、提高训练效率的关键。

据介绍,腾讯云AIGC云存储解决方案主要由对象存储COS、高性能并行文件存储CFS Turbo、数据加速器GooseFS和数据万象CI等产品组成,是国内首个实现存储引擎全面自研的云存储解决方案。目前,已经有80%的头部大模型企业选择了腾讯云AIGC云存储解决方案,包括百川智能、智谱、元象等明星大模型企业。

腾讯云自研的分布式对象存储引擎YottaStore,支持任意多副本及纠删码冗余模式并存,在大幅提升可用性、可靠性及性能的同时大幅降低成本。基于YottaStore,腾讯云对象存储服务COS作为统一的数据存储池,支持单集群1万台服务器,单集群百EB级的存储。

在数据清洗环节中,数据加速器GooseFS可根据数据的使用频率,将数据智能存储至内存、计算集群的本地盘、或可用区的全闪存储集群等不同级别的缓存中,低成本缩短IO路径,提升数据访问性能。相比起从对象存储COS中直接读取,GooseFS可以提供亚毫秒级的数据访问延迟、百万级的IOPS和Tbps级别的吞吐能力,有效提升数据清洗效率。

面向模型训练场景的CFS Turbo,则是目前业内唯一自研的并行文件存储系统。基于自研分布式高性能存储引擎Histor,CFS Turbo底层通过自研用户态协议栈和RDMA等技术,减少数据的多次拷贝与虚拟化消耗,大幅降低了存储时延、提升吞吐性能;在应用侧,CFS Turbo自研并行文件传输协议,实现了多链路并行访问,大大提升了吞吐效率。原来的文件存储受限于传统NFS协议,单客户端只能单链路访问,也导致吞吐存在性能瓶颈。

腾讯云自主研发并行文件存储CFS Turbo ,面向AIGC训练场景的进行了专门优化,每秒总读写吞吐达到TiB/s级别,每秒元数据性能高达百万OPS,均为业界第一。3TB checkpoint 写入时间从10分钟,缩短至10秒内,使大模型训练效率大幅提升。

大模型推理场景对数据安全与可追溯性提出更高要求。腾讯云数据万象CI为此提供图片隐式水印、AIGC内容审核、智能数据检索MetaInsight等能力,为数据生产从“用户输入——预处理——内容审核——版权保护——安全分发——信息检索“业务全流程提供有力支撑,优化AIGC内容生产与管理模式,顺应监管导向,拓宽存储边界。

此外,针对AIGC的checkpoint记录、大视频文件读写、小图片读写等场景,腾讯云CFS Turbo还自研了分级缓存、自适应条带化、分布式元数据的技术,大幅提升了AIGC场景下的读写性能。除了大模型企业以外,CFS Turbo也被广泛应用于自动驾驶与工业仿真场景,包括博世汽车、蔚来等自动驾驶厂商,上海电气、深势等仿真场景,墨镜天合、追光等影视特效场景。

值得一提的是,该方案是腾讯云自主研发的存储引擎与自研技术,这也是国内目前唯一实现存储引擎全面自研的云存储解决方案。

转载请注明出处、作者和本文链接
声明:文章内容仅供参考、交流、学习、不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • 国内目前唯一实现存储引擎全面自研的云存储解决方案,记着了,持续关注ing

    回复 4月20日 · via pc

AWARDS-文章详情右上

快报

更多

2024-11-16 22:44

嘉实基金和平安基金相继宣布与普华永道解约,涉及378只基金

2024-11-16 22:30

超30000公里,中国图迈机器人远程手术再获突破

2024-11-16 22:29

李庚希凭电影《我们一起摇太阳》获第37届金鸡奖最佳女主角

2024-11-16 22:12

百亿级股票私募仓位指数创今年以来单周加仓幅度最高纪录

2024-11-16 21:30

挪威地产大亨、亿万富翁Olav Thon离世,享年101岁

2024-11-16 20:51

山东对8类家电开展以旧换新,最高可享受补贴1.6万元

2024-11-16 20:43

深圳计划鼓励并购重组,已经起草征求意见稿

2024-11-16 20:39

日本青森县陆奥湾发生4.6级地震

2024-11-16 20:20

北京加快存量数据中心提质升级

2024-11-16 20:17

以太坊站上3200美元/枚,日内涨3.56%

2024-11-16 20:16

11月16日新闻联播速览22条

2024-11-16 19:56

智己汽车与Momenta、英伟达官宣合作,打造行业首批索尔(Thor)芯片量产智驾方案

2024-11-16 19:44

工业和信息化部:深入实施医药工业数智化转型行动,培育世界一流医药企业

2024-11-16 19:43

国家卫生健康委:以重大科技项目和政策协同为抓手,力争在重大原创性成果产出等方面全面提升

2024-11-16 19:22

杨植麟:kimi每月用户规模达到3600万

2024-11-16 19:19

海南旅游市场升温,今年前10月三大机场进港旅客逾两千万人次

2024-11-16 19:04

David Tepper:中国股票仓位接近四成

2024-11-16 18:47

李家超与多位东盟国家领导人会面,望支持香港尽早加入RCEP

2024-11-16 18:16

中蒙边境一日游线路恢复

2024-11-16 18:13

我国首座大型浮式天然气液化装置(FLNG)基本建成

1

扫描下载App