其他
2022年的五个大数据发展趋势
02数据仓库与数据湖的竞争
"我们所看到的是,越来越多的人现在觉得他们可以真正使用他们在数据湖中的数据,与我们一起进行数据仓库工作负载。而这些可能是工作负载,否则会去Snowflake的。"
"我认为Snowflake将非常成功,我认为Databricks将非常成功......你还会看到其他的顶级公司出现,我肯定,在未来三到四年内。这只是一个巨大的市场,很多人专注于追求它是有道理的。"
03实时计算和运营分析
"如果你没有一个实时的流处理系统,你必须处理这样的事情,好吧,那么数据每天都会到达。我要把它放在这里。我要把它加到那边去。那么,我如何进行核对?如果有些数据晚了怎么办?我需要连接两个表,但那个表不在这里。所以,也许我会等一下,然后再重新运行一次。"
-——Ali Ghodsi on a16z
"云数据仓库的设计是为了支持商业智能用例,这相当于扫描整个表并汇总结果的大型查询。这是对历史数据分析的理想选择,但对于 "现在发生了什么?"这类查询正变得越来越流行,以推动实时决策。这就是运营分析指的是什么。这方面的例子包括应用内的个性化、流失预测、库存预测和欺诈检测。相对于商业智能,运营分析查询将许多不同的数据源连接在一起,需要实时数据摄取和查询性能,并且必须能够同时处理许多查询。"
04云市场的崛起
超过45%的 Forbes The Cloud 100公司积极使用云市场作为其软件的分销渠道。 流经三大云计算供应商的企业承诺支出 exceeds $250 billion per year- 而这个数字正在快速攀升。 仅在2021年,独立软件供应商通过云市场平台 产生了超过30亿美元的收入,根据 Bessemer predictions. 贝瑟默公司预计,在未来几年,这一数字将以10的倍数增长。 Forrester had projected到2023年,全球13万亿美元的B2B支出中有17%将通过电子商务和市场平台流动 - 但这个数字可能在2021年就已经达到了。 A 2020 Tackle survey发现,70%的软件供应商表示,由于COVID-19的出现,他们已经增加了对市场平台的关注和投资,将其作为进入市场的渠道。
05数据栈术语的统一
RECOMMEND
推荐阅读
推荐理由:本书由Python pandas项目创始人Wes McKinney亲笔撰写,详细介绍利用Python进行操作、处理、清洗和规整数据等方面的具体细节和基本要点。第2版针对Python 3.6进行全面修订和更新,涵盖新版的pandas、NumPy、IPython和Jupyter,并增加大量实际案例,可以帮助你高效解决一系列数据分析问题。
推荐理由:被誉为数据仓库的“圣经”,第4版涵盖了数据仓库新技术,保持了在这一领域的先锋地位,详尽地讲述了数据仓库的基本概念、基本原理,以及建立数据仓库的方法和过程。
推荐理由:透过现象看本质,掌握高性能、高并发、实时系统设计与权衡之道。
推荐理由:这是一本将数据分析技术与数据使用场景深度结合的著作,从实战角度讲解了如何利用Python进行数据分析和数据化运营。
畅销书全新、大幅升级,第1版近乎100%的好评,第2版不仅将Python升级到了新的版本,而且对具体内容进行了大幅度的补充和优化。
推荐理由:这是一部从源代码角度出发,通过分析Flink的各个功能模块的实现来剖析Flink的架构设计和实现原理的著作。它将能指导读者更好地对Flink进行性能调优、可用性保障、效能优化和二次开发。
四位作者都是非常资深的Flink专家,部分作者是Flink源代码的维护者和改造者,本书总结了他们在阿里巴巴、蚂蚁集团、滴滴等企业的大规模Flink实践经验。
特别推荐,点击选购↓
扫码关注【华章计算机】视频号
每天来听华章哥讲书
更多精彩回顾
书讯 | 2月书讯(下)| 新年到,新书到!书讯 | 2月书讯 (上)| 新年到,新书到!资讯 | TensorFlow技术主管皮特·沃登离职,重返斯坦福读博!书单 | 6本书,读懂2022年最火的边缘计算收藏 | Three.js 的 3D 粒子动画:群星送福干货 | 数据治理的这些事儿,90%的人搞不清活动 | 开学季——经典计算机教材带你起飞!赠书 | 【第92期】Python迎来31岁生日,蝉联年度编程语言排行榜冠军