查看原文
其他

数据湖、可观测、自动驾驶训练,阿里云存储独家技术详解与案例实践!

阿里云存储 云布道师 2023-06-18

云布道师

QCon 全球软件开发大会是由极客邦科技旗下 InfoQ 中国主办的综合性技术盛会,每年在伦敦、北京、纽约、圣保罗、上海、旧金山召开。自 2007 年 3 月份开始举办以来,已经有超万名有多年从业经验的技术人员参加过 QCon 大会。QCon 内容源于实践并面向社区,演讲嘉宾依据热点话题,面向 5 年以上工作经验的技术团队负责人、架构师、工程总监、开发人员分享技术创新和实践。
近日,Qcon 大会-上海站顺利闭幕,阿里云存储作为内容出品合作方受邀参会,有 3 名技术专家在【LakeHouse 落地】、【业务性能监控】、【智能汽车场景】等专场中带来精彩分享;其中两个专场获得现场最受好评奖,并且阿里云资深技术专家-丁来强(成喆)获得明星讲师称号;接下来一起看看现场的精彩分享吧!

LakeHouse 落地专场

随着云计算技术的飞速发展和日益成熟,大数据分析的系统架构也朝着云原生的方向逐步演进。利用云技术的便携,弹性,高性能特点,大数据分析完成了从开源 Hadoop 的存算一体,到基于云存储的存算分离分析模式升级,再到云原生数据湖和湖仓一体的 LakeHouse 分析架构升级,以此来帮助企业和客户使用较低的资源成本,充分挖掘数据的价值。
在该专场中,阿里云资深技术专家-梁明旭(旭一),带来了《云原生数据湖实战之前世今生》专题分享!详细介绍了数据湖的历史由来,和阿里云数据湖 1.0 到 3.0 的升级之路!
梁明旭(旭一)表示:对象存储 OSS 作为云原生数据湖的存储底座,在 LakeHouse 架构体系中扮演着重要的角色。基于数据湖的数据分析架构是云上部署的重要选择,开放的数据湖存储,可以大幅提高数据价值挖掘的效率。目前已经有 10000+ 企业,在阿里云上构建数据湖方案,可以更好的进行大数据分析和智能决策。
近期,阿里云数据湖存储架构在四个方面进行了全面升级:
  • 第一,以更加开放的方式与开源系统对接,实现多协议、多引擎的支持。
  • 第二,访问带宽的全面提速,每 PB 100Gbps 的高吞吐能力。
  • 第三,简化数据管理,统一命名空间,让云上云下数据便捷流动;WORM 技术可有效防止数据被篡改。
  • 第四,数据的自动分层进一步降低成本;数据的共享实现一份数据多个引擎分析。
此外,阿里云近期还重磅发布了对象存储 OSS 的深度冷归档类型,价格仅为 0.0075 元 /GB/月,1TB 一年仅需 92 元!是业界最低成本的存储,适用于对海量、访问频次低的数据进行归档和管理。低成本的背后,其实是高科技的加持,更是 IT 软硬件体系的一次完美重构。

业务性能监控专场

当今,ROI 和 ROI 的度量,是每个企业是必须考虑的核心问题,所以业务性能监控是每个企业必须要走的路。那么什么是业务性能监控?性能对外是用户体验优化,是产品的性价比,对内是成本、可靠性。紧贴业务的性能监控,依据大数据获得业务特征,可以与 DevOps 和云原生结合,快速扩缩容,混合部署,优化程序,获得成本收益。可以与用户反馈平台、行为分析平台结合,快速定位客户问题,聚焦核心问题,获取体验优化、收入增长的收益。
在这个专场,阿里云资深技术专家-丁来强(成喆),为大家带来了《基于云产品可观测平台的业务监控技术实践》专题分享,希望能给大家更多相关的案例和启发,修炼内功,让企业自身更强韧更强大。
丁来强(成喆)认为:随着云原生时代的到来,云上资源愈发复杂,架构更加多样,如果缺乏有效的云管理能力,将不可避免造成巨大的资源浪费和成本支出。
同时云原生技术的快速发展,更多企业技术平台选择上云,随着使用云产品类型的不断增加,这也对业务系统的运维管理带来巨大挑战,所以“云产品”可观测对于云上企业构建全栈的业务可观测方案尤为重要。
我们希望通过阿里云观察到的数万用户的云上业务监控的挑战的思考,为大家拆解容器一体化监控、业务资源用量与成本分析等典型场景,深度解析云产品可观测平台的数据链路、存储分析平台的技术设计。通过实现紧贴业务的性能监控,能够帮助企业快速定位并聚焦核心问题,完成体验优化的同时实现降本增效。
为了帮助用户清晰地透视云产品的内部行为,阿里云日志服务 SLS 近期发布了云产品可观测平台 Alibaba Cloud Lens,让用云和管云变得更简单。
通过 Alibaba Cloud Lens,为客户提供云产品的用量分析、访问分析、异常检测、安全分析、性能监控、数据保护等服务,从成本、性能、安全、数据保护、稳定性、访问分析六个维度,提供云产品的精细化运维辅助分析能力,让企业在保障业务敏捷性的前提下,低门槛地实现对云产品可观测。

智能汽车场景专场

随着自动驾驶技术日趋成熟,量产车辆持续规模化交付,研发、测试、运营等阶段产生的数据量也呈现出几何倍数增长。其中,AI 操作系统作为自动驾驶的核心技术,对于传感器每天收集到的海量数据都需反复进行模拟和深度学习,为存储的吞吐、时延和灵活性带来了更高挑战。
为此,阿里云高级技术专家-廖泽贤,将为大家带来《面向自动驾驶 AI 训练的统一存储最佳实践》主题分享,介绍 AI 对存储的要求与挑战,深入解读存储介质及存储网络对集群性能的影响,分享自动驾驶行业的最佳实践案例。
廖泽贤表示:在自动驾驶技术研发阶段,其对基础设施的核心要求是能快速且稳定地对海量数据进行采集和处理。
在车联网 AI 和商业等智能汽车场景下,每天将会产生几十 TB 的数据,如何高效安全的采集这部分数据是一大难题。除此以外,在日常模型训练场景下,需要对百 GB 的数据进行集中训练,就需要文件系统提供低时延的文件访问能力,从而加速训练过程。在这些情况下,线下传统 NAS 存储存在单点性能瓶颈,并且容量和性能不支持弹性扩张,无法满足 GPU 的低延迟的文件访问需求。
针对传统自动驾驶方案中多业务数据存储使用效率低下的问题。通过阿里云文件存储 CPFS 和对象存储 OSS 数据湖存储及数据自由流动解决方案,满足从海量数据采集到清洗、标注、训练到归档的数据自动化,提供了自动驾驶研发云的统一数据平台,可以极大提升研发效率。
  • 海量小文件承载能力:CPFS 单文件系统可提供 40 亿文件承载能力和百万 OPS 能力;
  • 超高性能:CPFS 单文件系统提供亚 ms 级读写延迟、280W IOPS 和几十万元数据操作 OPS;
  • CPFS 与 OSS 数据流动:数据块级别按需拉取 OSS 数据,无需预读,无需等待完整 OSS 对象导入完成即可开始计算。数据冷却后自动下沉至 OSS,降低存储成本;
  • 容器大规模扩缩容:CPFS 支持 K8S CSI 接口,可支持数万 POD 同时访问和大规模弹性扩缩容;
  • 统一数据底座 OSS:一套系统实现数据处理,标注和持久化存储,数据 0 拷贝,时间节省 30%;无缝对接 EMR 等多种计算引擎和 Hadoop 等多种开源生态;
阿里云自动驾驶一体化数据解决方案,致力于帮助各研究自动驾驶的企业,在数据采集、运输、上传和计算全链条上进行时间、成本、安全以及计算效率等方面的改善。
小鹏汽车作为中国领先的智能汽车制造商,就使用了阿里云自动驾驶一体化数据解决方案。该方案不仅帮助其解决了日均几百 TB 的数据,还帮助 AI 系统迅速处理数据,加速汽车在复杂路况和驾驶技巧的训练速度,帮助小鹏汽车在自动驾驶模型训练提速 170 倍!

总结

随着技术、模式、业态创新成为数字经济的常态,需求端的常态化创新将向基础设施端传导,敏捷高效成为数字基础设施的刚需。在这样的背景下,云存储需要继续保持稳定安全可靠,需要持续的成本优化的能力,需要进一步提升 Serverless 化能力,需要降低使用和管理的复杂度,需要充分释放云存储的弹性、按需所用、按量计费和资源精简分配的优势。唯有如此,才是真正的下一代云存储,才能真正帮助客户释放数据无限价值。
如需获取现场演讲 PPT,可访问下方链接填写表单免费下载;如有任何问题或需求,可加入存储用户交流群咨询!

旭一 - 云原生数据湖实战之前世今生:

https://page.aliyun.com/form/act276874515/index.htm

成喆 - 基于云产品可观测平台的业务监控技术实践:

https://page.aliyun.com/form/act2054522917/index.htm

廖泽贤 - 面向自动驾驶的AI训练统一存储最佳实践:

https://page.aliyun.com/form/act1741137508/index.htm


你可能还想看

1. 如果 IT 行业也有世界杯,这只存储队阵容如何?

2. 阿里云孙成浩:生而为云,连接增长——洛神云网络3.0持续演进

3. Tapdata 携手阿里云,实现数据平滑上云以及毫秒级在线查询和检索能力

4. 当云原生成为一种显学,对象存储和数据湖如何顺势而为

5. Apache Flink运行时在B站的稳定性优化与实践

关注我们

欢迎关注加星标✨ 回复关键词可领取相关技术白皮书

随机抽取送技术图书 · 重大节日发放文创纪念品

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存