降本增效的背后，谈谈阿里云存储数据湖3.0

我是储留香云布道师 2023-06-18

云布道师

今年 3 月，阿里云全球数据湖峰会上，阿里云从“湖管理、湖存储和湖计算“三个方面带来了“数据湖 3.0” 的重磅升级方案。在本月最新的 2022 云栖大会上，阿里云存储对数据湖的能力，进行了再次升级。

数据湖是以集中方式存储各种类型数据，提供弹性的容量和吞吐能力，能够覆盖广泛的数据源，支持多种计算与处理分析引擎直接对数据进行访问的统一存储平台。能够实现数据分析、机器学习，数据访问和管理等细粒度的授权、审计等功能。

越来越多企业选择数据湖作为企业数据存储、管理的解决方案。同时，数据湖的应用场景也在不断发展，各行各业都在云上构建数据湖，从一开始的简单分析，到互联网搜索推广和深度分析以及近两年大规模的 AI 训练，都是基于数据湖架构进行的。

存算分离，数据冷热智能分层

目前，有很多阿里云客户的云上数据湖规模已经超过了 100PB，所以可以预见，基于数据湖的数据分析架构是一个不可阻挡的未来发展趋势。那么为什么会需要这样的架构呢？

阿里巴巴集团研究员、阿里云智能资深产品总监 Alex Chen 认为，究其原因，是因为企业无时无刻地不在产生数据，这些数据需要进行分析，才能激活它的价值。数据分析可以分为实时性分析和探索性分析。实时性分析是用已知数据回答已知问题；探索性分析是用已知数据回答未知问题，所以需要预先把数据都保存下来，这无疑会增加许多存储费用。

为了压缩存储成本，阿里云选择了存算分离架构，这种架构提供了独立的扩展性。客户可以做到数据入湖，计算引擎按需扩容，这样的解耦方式会得到更高的性价比。阿里云对象存储 OSS 是数据湖的统一存储层，可对接各类业务应用、计算分析平台。

在云栖大会上，阿里云存储正式发布了对象存储 OSS 的深度冷归档类型，价格仅为 0.0075 元/GB/月，是业界最低成本的云存储类型。选用基于最后一次访问时间的生命周期规则，可实现由服务端根据最后访问时间来自动识别冷热数据，并实现数据分层存储。即使一个桶（Bucket）里面有多个对象（Object），也可以根据最后一次修改时间或者访问时间，对于每个对象，每个文件去做生命周期管理。

对象存储 OSS 的归档或冷归档类型的 Object，需要解冻（Restore）之后才能读取。归档类型 Object 解冻完成通常需要数分钟，冷归档类型 Object 根据不同解冻优先级，解冻完成通常需要数小时，这给一些用户带来了很大的困扰。

为了让用户可以直接读取归档/冷归档存储，对象存储 OSS 新增归档直读能力，数据无需解冻，直接访问。同时采用数据生命周期管理策略和 OSS 深度冷归档类型降本增效，可以让整个数据湖成本降低 95%。

多协议兼容，一份数据支持多种应用

随着 AI、IoT、云原生技术的发展，对于非结构化数据处理的需求越来越强烈。使用云上对象存储作为统一存储的趋势越来越明显。Hadoop 的体系也逐渐由 HDFS 为统一存储，发展为云上像 S3、OSS 这样的云存储，作为统一存储的数据湖体系。现在，数据湖已经进入 3.0 时代。在存储上，以对象存储为中心，实现了多协议全兼容、统一元数据管理；在管理上，面向湖存储+计算的一站式湖构建和管理，做到智能“建湖”和“治湖”。

阿里云智能资深产品专家彭亚雄指出，数据湖 3.0 架构下，提供了全兼容的 HDFS 服务化能力，用户不再需要搭建元数据管理集群，轻松实现自建 HDFS 向数据湖架构迁移。同时，原生具备多协议的接入能力及多种元数据的统一管理，实现 HDFS 与对象存储底层的无缝融合，让数据在多种生态间高效统一流入、管理、使用，帮助用户加速业务创新。100Gbps/PB 的读写能力可以进一步提升数据处理效率。

数据分析架构的引擎是在不断迭代的，在 AI、自动驾驶场景中，需要让一份数据被多种应用共享。对象存储 OSS 作为云上数据湖的统一存储底座，提供低成本、可靠的海量数据存储能力。文件存储 CPFS 与对象存储 OSS 实现了深度集成，当需要进行推理、仿真这种高性能运算时，通过 CPFS 可实现对 OSS 中数据的快速访问和分析，做到数据按需流动和 block 级别的 Lazyload（延迟加载）。

此外，文件存储 CPFS 支持通过 POSIX 客户端或 NFS 客户端两种方式挂载访问文件系统，同时支持通过这两种客户端互相访问，让海量小文件访问起来毫无压力。

云上云下互通，业务敏捷创新

随着云计算的蓬勃发展，越来越多的 IT 系统基础设施转移到云上，数据正在远离企业数据中心。据统计，80% 的数据产生在数据中心之外。这个时候，企业数据可以通过 RESTful API 或者 HTTP、VPN 的方法来传输到自己的数据中心，也可以传到云上。

构建企业数据湖的时候，可以首先使用数据湖构建 DLF 来完成数据的入湖和元数据的管理，然后通过日志服务 SLS，将全球数据实时投递到数据湖中的 OSS，再充分发挥 OSS 的能力，实现数据的冷热分层，从而使整体的数据湖方案能够达到降本增效的目的。

为了便于管理数据，云上和本地数据中心不仅需要统一的命名空间，还需要数据互通。在数据互通的情况，可以把算力随时从线下调到云上，按需分配。当然，实现这些的前提是，传统应用和新兴应用（如 IOT、BigData、AI）的数据可以融合在一起。通过混合云 IT 架构无缝上云已成为企业应用的新常态，混合云存储将成为架起本地数据中心和公共云的桥梁，也已经成为数据湖整体方案不可或缺的部分。

数据湖是面向未来的大数据架构。只有做到文件对象融会贯通、冷热数据智能分层、云上云下数据互通的数据湖，才是拥有广阔前景的数据湖。目前，阿里云 3.0 数据湖解决方案已经在互联网、金融、教育、游戏等技术前沿领域落地，在人工智能、物联网、自动驾驶等拥有海量数据场景的行业得到了广泛应用。未来，阿里云希望同伙伴一起，将云原生数据湖渗透到千行百业，推动更多企业实现数字创新。

你可能还想看

1. 磐久网络｜揭秘阿里云HAIL数据中心网络

2. 龙蜥技术委员会主席杨勇：下一代操作系统展望

3. 神策数据联合阿里云计算巢，探索云端私有化部署新形态

4. 声声声声临其境，未来的沉浸音频技术将如何发展？

5. 阿里技术风险与效能部负责人张瓅玶：阿里集团深度用云实践

关注我们

欢迎关注加星标✨ 免费获取技术干货&文档资料

随机抽取送技术图书 · 重大节日发放文创纪念品

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

Dior变色唇膏59元两只限量抢！一抹玻璃唇，秒变时尚girl！

林志玲终于晒娃，3岁儿子也太帅气了！网友：有孩子的，都来学学

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

降本增效的背后，谈谈阿里云存储数据湖3.0

1. 磐久网络｜揭秘阿里云HAIL数据中心网络

2. 龙蜥技术委员会主席杨勇：下一代操作系统展望

3. 神策数据联合阿里云计算巢，探索云端私有化部署新形态

4. 声声声声临其境，未来的沉浸音频技术将如何发展？

5. 阿里技术风险与效能部负责人张瓅玶：阿里集团深度用云实践

您可能也对以下帖子感兴趣

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

Dior变色唇膏59元两只限量抢！一抹玻璃唇，秒变时尚girl！

林志玲终于晒娃，3岁儿子也太帅气了！网友：有孩子的，都来学学

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

生成图片，分享到微信朋友圈

降本增效的背后，谈谈阿里云存储数据湖3.0

1. 磐久网络｜揭秘阿里云HAIL数据中心网络

2. 龙蜥技术委员会主席杨勇：下一代操作系统展望

3. 神策数据联合阿里云计算巢，探索云端私有化部署新形态

4. 声声声声临其境，未来的沉浸音频技术将如何发展？

5. 阿里技术风险与效能部负责人张瓅玶：阿里集团深度用云实践

您可能也对以下帖子感兴趣