查看原文
其他

太意外了!国内80%大模型都存在鹅厂!

小黑羊 特大号 2024-04-09

“国内80%的头部大模型,都选用了腾讯云存储!”

讲真,看到这则信息,我有两点意外↓
1、大模型对存储要求真的挺高吗?2、鹅厂云存储都整了啥幺鹅子,能圈住介么多大模型?

为了回答这俩问题,我们先来对齐一下认知。

常有圈里朋友说,搞大模型的核心挑战,还是算力,至于存储,其实要求不高。

甚至,很多人还拿了GPT来说事,比如1750亿参数量的GPT-3,训练数据才区区570GB!
570GB啥概念?几百块钱的U盘都能装下。
570GB不假,但人家没告诉你的是:这个570GB是经过层层提纯得到的,这些数据在未经清洗之前,是45TB。
而这个45TB,要攒起来可相当不容易,那是从PB级的原始数据、各种五花八门的源头采集过来的。
所以这背后,是数个PB→45TB→570GB,光在数据准备阶段,采集和清洗,就很考验存储的战斗力,而这只是万里长征的第一步。
你千辛万苦准备好训练数据,挑战才刚开始,后面存储的坑儿,多着哩~
接下来,我们以鹅厂云存储支撑AIGC大模型的训练和应用实践为例,来详细掰扯掰扯大模型存储的门道↓

简单说,AI大模型的研发生产流程,分成数据采集与清洗、模型训练、模型推理与内容治理三大环节,每个环节都涉及海量的数据处理,对存储也都提出了超高却又不一样的需求。

一、数据采集与清洗环节
这是一个数据从多到少、从粗到精、层层萃取沉淀的过程,但这个过程可不能像提取蒸馏水那么慢吞吞。
采集数据时,原始训练数据的规模是海量的,通常基于公网采集,而且来源和格式五花八门,文本数据、网页内容、书籍和出版物、社交媒体数据、多媒体音视频(多模态)。
存储作为“蓄水池”和“净化池”,需要支持多协议、高性能、大带宽,同时公网访问能力也很重要。
而腾讯云对象存储COS,提供POSIX、HDFS、对象语义协议支持,并具备便捷、高效的公网接入能力。
作为数据湖的存储底座,COS支持单集群管理百EB级别存储规模,轻松拿捏大模型PB级别的海量数据采集,确保“采得快,存得下”。

到了数据清洗环节,大数据引擎需要快速地读取并过滤出有效数据,此时要求在10几秒内就要把上TB数据加载到计算引擎,存储带宽会有很大压力。
采用传统方案,加载时间要30+分钟,等不起,伤不起~

而用COS体验就不一样了,通过鹅厂自研的数据加速器GooseFS,数据访问性能大大提升。
听听这名字,GooseFS,大鹅出马,一个顶俩!

“大鹅加速器”(GooseFS)采用了分层存储机制↓
根据不同需求,将需要高频或快速调用的数据加载到内存、本地盘、可用区全闪存储集群中等不同级别的缓存中,缩短IO路径,提升数据访问性能。

如此,实现亚毫秒级的数据访问延迟、百万级的IOPS和Tbps级别的吞吐能力支撑计算高速运行,大模型的数据清洗效率能够提升1倍。

二、模型训练环节

在AI大模型训练场景下,需要反复地将训练数据从对象存储COS拉取到文件存储中。
然后,再从文件存储读取到缓存中用于模型训练与计算,在这个过程中需要大量的读取、写入或者删除等操作。

此时,需要保证文件存储有超高IOPS和OPS,以便为每个胃口超大的GPU训练节点提供足量的数据。
如果文件存储性能不够,算力节点吃不饱,就会“摸鱼”,昂贵的算力就会被白白浪费。
同时,训练是个以月为单位大工程,保不齐哪个GPU算力节点会挂掉,“从头再来”那还得了?!
为了便于在GPU故障时回滚,通常需要每2-4小时保存一次训练成果(checkpoint),此时,上千台训练节点机并发,会带来百GB/s的读写吞吐。
如果文件存储性能跟不上(高并发、高吞吐、高元数据OPS),就没法快速保存和恢复checkpoint文件,节点就得闲着,训练进度就被拖慢。
看到这里明白了,训练的这个环节,对存放训练数据的文件存储,要求相当高。
而市面上常规文件存储,无论是并发连接数、总读写吞吐/带宽,还是元数据OPS性能,都跟不上这样的节奏。
鹅厂怎么破呢?
腾讯云自主研发了并行文件存储CFS Turbo ,作为国内唯一实现并行文件存储自研的云厂商,鹅厂面向AIGC训练场景的进行了专门优化。
CFS Turbo每秒总读写吞吐达到TiB/s级别,IOPS达到百万级别,均为业界蓝波万。
首先,相比传统NFS,CFS Turbo采用自研专用协议和专用客户端,支持超高并发能力,轻松打满数百G带宽的训练节点网卡,绝不让GPU们摸鱼。
第二,通过智能缓存技术,在客户端提供可配置的读写缓存。
通过读缓存,加速重复样本数据的读取,通过写缓存(同步写or异步写),提升checkpoint的保存速度。
CFS Turbo可在数秒内完成TB级checkpoint文件的写入,使大模型训练效率大幅提升
第三,对大文件进行“条带化”,将视频等大文件分割成多个小块,同时写入,提升效率。
实现小文件性能无损耗,大文件读写性能提升8倍,同时数据分布更加均匀,存储集群容量利用率可达95%。

第四,CFS Turbo的元数据服务器采用了分布式架构,并对每个目录都做了条带化。
这样,当上千台训练机器进行十万级别的文件操作,检索千万甚至上亿级别的目录时,可以在不同节点上并发执行。元数据(目录)访问性能随着节点数线性增长。


通过使用CFS Turbo并行文件存储,数秒内就能完成checkpoint写入,GPU时间利用率达99.5%。每秒支持百万级Token读取,训练效率提升一倍。
而且,存储支持在线弹性扩容、按需扩容,扩容过程中业务无感知。


三、在模型推理与内容治理环节
大模型训完了,当然是要用起来,这就到了模型推理场景。
虽然此时存储的性能要求不高,可是数据安全、内容合规性、可追溯性要求实在太高了。
此时,鹅厂又拿出了一个法宝,这便是腾讯云数据万象CI提供图片隐式水印、AIGC内容审核、智能数据检索MetaInsight等能力。
为AIGC业务全流程(用户输入——预处理——内容审核——版权保护——安全分发——信息检索),提供一条龙服务,顺应监管导向,优化AIGC内容生产与管理模式。
从数据采集到数据清洗,从模型训练到模型推理,再到内容智理,鹅厂AIGC存储方案成功填平了路上每一个坑。
目前,国内有80%的头部大模型企业,都选择腾讯云存储,包括百川智能、智谱、元象等等。

然鹅,不止于云存储和万象,腾讯云已面向AIGC场景,推出了基于星脉网络的大模型训练集群HCC、向量数据库,以及行业大模型服务MaaS等AIGC全链路云服务
打造“最适合大模型的云”,这才是腾讯云的野心!
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存