太意外了！国内80%大模型都存在鹅厂！

Original 小黑羊特大号 2024-04-09

“国内80%的头部大模型，都选用了腾讯云存储！”

讲真，看到这则信息，我有两点意外↓

1、大模型对存储要求真的挺高吗？2、鹅厂云存储都整了啥幺鹅子，能圈住介么多大模型？

为了回答这俩问题，我们先来对齐一下认知。

常有圈里朋友说，搞大模型的核心挑战，还是算力，至于存储，其实要求不高。

甚至，很多人还拿了GPT来说事，比如1750亿参数量的GPT-3，训练数据才区区570GB！

570GB啥概念？几百块钱的U盘都能装下。

570GB不假，但人家没告诉你的是：这个570GB是经过层层提纯得到的，这些数据在未经清洗之前，是45TB。

而这个45TB，要攒起来可相当不容易，那是从PB级的原始数据、各种五花八门的源头采集过来的。

所以这背后，是数个PB→45TB→570GB，光在数据准备阶段，采集和清洗，就很考验存储的战斗力，而这只是万里长征的第一步。

你千辛万苦准备好训练数据，挑战才刚开始，后面存储的坑儿，多着哩~

接下来，我们以鹅厂云存储支撑AIGC大模型的训练和应用实践为例，来详细掰扯掰扯大模型存储的门道↓

简单说，AI大模型的研发生产流程，分成数据采集与清洗、模型训练、模型推理与内容治理三大环节，每个环节都涉及海量的数据处理，对存储也都提出了超高却又不一样的需求。

‍

一、数据采集与清洗环节

这是一个数据从多到少、从粗到精、层层萃取沉淀的过程，但这个过程可不能像提取蒸馏水那么慢吞吞。

采集数据时，原始训练数据的规模是海量的，通常基于公网采集，而且来源和格式五花八门，文本数据、网页内容、书籍和出版物、社交媒体数据、多媒体音视频（多模态）。

存储作为“蓄水池”和“净化池”，需要支持多协议、高性能、大带宽，同时公网访问能力也很重要。

而腾讯云对象存储COS，提供POSIX、HDFS、对象语义协议支持，并具备便捷、高效的公网接入能力。

作为数据湖的存储底座，COS支持单集群管理百EB级别存储规模，轻松拿捏大模型PB级别的海量数据采集，确保“采得快，存得下”。

到了数据清洗环节，大数据引擎需要快速地读取并过滤出有效数据，此时要求在10几秒内就要把上TB数据加载到计算引擎，存储带宽会有很大压力。

采用传统方案，加载时间要30+分钟，等不起，伤不起~

而用COS体验就不一样了，通过鹅厂自研的数据加速器GooseFS，数据访问性能大大提升。

听听这名字，GooseFS，大鹅出马，一个顶俩！

“大鹅加速器”(GooseFS)采用了分层存储机制↓

根据不同需求，将需要高频或快速调用的数据加载到内存、本地盘、可用区全闪存储集群中等不同级别的缓存中，缩短IO路径，提升数据访问性能。

如此，实现亚毫秒级的数据访问延迟、百万级的IOPS和Tbps级别的吞吐能力支撑计算高速运行，大模型的数据清洗效率能够提升1倍。

二、模型训练环节

在AI大模型训练场景下，需要反复地将训练数据从对象存储COS拉取到文件存储中。

然后，再从文件存储读取到缓存中用于模型训练与计算，在这个过程中需要大量的读取、写入或者删除等操作。

此时，需要保证文件存储有超高IOPS和OPS，以便为每个胃口超大的GPU训练节点提供足量的数据。

如果文件存储性能不够，算力节点吃不饱，就会“摸鱼”，昂贵的算力就会被白白浪费。

同时，训练是个以月为单位大工程，保不齐哪个GPU算力节点会挂掉，“从头再来”那还得了？！

为了便于在GPU故障时回滚，通常需要每2-4小时保存一次训练成果（checkpoint），此时，上千台训练节点机并发，会带来百GB/s的读写吞吐。

如果文件存储性能跟不上（高并发、高吞吐、高元数据OPS），就没法快速保存和恢复checkpoint文件，节点就得闲着，训练进度就被拖慢。

看到这里明白了，训练的这个环节，对存放训练数据的文件存储，要求相当高。

而市面上常规文件存储，无论是并发连接数、总读写吞吐/带宽，还是元数据OPS性能，都跟不上这样的节奏。

鹅厂怎么破呢？

腾讯云自主研发了并行文件存储CFS Turbo ，作为国内唯一实现并行文件存储自研的云厂商，鹅厂面向AIGC训练场景的进行了专门优化。

CFS Turbo每秒总读写吞吐达到TiB/s级别，IOPS达到百万级别，均为业界蓝波万。

首先，相比传统NFS，CFS Turbo采用自研专用协议和专用客户端，支持超高并发能力，轻松打满数百G带宽的训练节点网卡，绝不让GPU们摸鱼。

第二，通过智能缓存技术，在客户端提供可配置的读写缓存。

通过读缓存，加速重复样本数据的读取，通过写缓存（同步写or异步写），提升checkpoint的保存速度。

CFS Turbo可在数秒内完成TB级checkpoint文件的写入，使大模型训练效率大幅提升。

第三，对大文件进行“条带化”，将视频等大文件分割成多个小块，同时写入，提升效率。

实现小文件性能无损耗，大文件读写性能提升8倍，同时数据分布更加均匀，存储集群容量利用率可达95%。

第四，CFS Turbo的元数据服务器采用了分布式架构，并对每个目录都做了条带化。

这样，当上千台训练机器进行十万级别的文件操作，检索千万甚至上亿级别的目录时，可以在不同节点上并发执行。元数据（目录）访问性能随着节点数线性增长。

通过使用CFS Turbo并行文件存储，数秒内就能完成checkpoint写入，GPU时间利用率达99.5%。每秒支持百万级Token读取，训练效率提升一倍。

而且，存储支持在线弹性扩容、按需扩容，扩容过程中业务无感知。

三、在模型推理与内容治理环节

大模型训完了，当然是要用起来，这就到了模型推理场景。

虽然此时存储的性能要求不高，可是数据安全、内容合规性、可追溯性要求实在太高了。

此时，鹅厂又拿出了一个法宝，这便是腾讯云数据万象CI，提供图片隐式水印、AIGC内容审核、智能数据检索MetaInsight等能力。

为AIGC业务全流程（用户输入——预处理——内容审核——版权保护——安全分发——信息检索），提供一条龙服务，顺应监管导向，优化AIGC内容生产与管理模式。

从数据采集到数据清洗，从模型训练到模型推理，再到内容智理，鹅厂AIGC存储方案成功填平了路上每一个坑。

目前，国内有80%的头部大模型企业，都选择腾讯云存储，包括百川智能、智谱、元象等等。

然鹅，不止于云存储和万象，腾讯云已经面向AIGC场景，推出了基于星脉网络的大模型训练集群HCC、向量数据库，以及行业大模型服务MaaS等AIGC全链路云服务。

打造“最适合大模型的云”，这才是腾讯云的野心！

继续滑动看下一个

特大号

向上滑动看下一个

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

太意外了！国内80%大模型都存在鹅厂！

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

生成图片，分享到微信朋友圈

太意外了！国内80%大模型都存在鹅厂！

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡