查看原文
其他

2021年【大数据学习与分享】文章合集

大数据学习与分享 大数据学习与分享 2022-07-29
前言:感谢这一年来,所有读者朋友们儿的支持,你们的阅读、转发、收藏、点赞、在看都是对【大数据学习与分享】的肯定。
借此也回答一下后台经常被咨询的2个问题:
  1. 文章《Spark推荐系统实践》的code demo,GitHub link:https://github.com/bigdatalearnshare/bigdatalearnshare-project,以供参考。
  2. 大家如果想查看历史文章中是否有某项技术、架构等的文章,比如Spark,可以在通过微信公众号的搜索功能,输入关键字查看相关文章。



大数据架构设计篇



  1. 企业大数据架构设计规划方案

  2. 大数据分析平台技术架构建设方案

  3. 大数据:简述 Lambda 架构

  4. 大数据资产管理平台实践.ppt

  5. 一张图解释清楚大数据技术架构

  6. 京东金融大数据平台架构

  7. 大数据架构之离线数仓与实时数仓架构设计

  8. 阿里大数据建设OneData体系架构

  9. 快手数据中台建设 - 大数据服务化之路

  10. 企业大数据平台仓库架构建设思路

  11. 亿级数据服务平台落地实践

  12. Data as a Service (DaaS) 架构与优势

  13. 基于Apache Hudi+Iceberg构建数据湖系统




数据中台篇



  1. 数据中台建设方案及实施路径

  2. 数据中台建设方案及实施路径

  3. 集团型企业数据中台建设方案

  4. 基于数据中台的数据治理解决方案

  5. 数据中台离数据资产价值变现还有多远?

  6. 爱奇艺数据中台建设方案

  7. 阿里数据中台实践分享

  8. 苏宁数据中台架构实践




数据仓库篇



  1. 全面解读数据中台、数据仓库和数据湖
  2. 数据仓库架构、模型、调度、指标建设方案
  3. 数据仓库研发规范
  4. 数据仓库系统的实现和使用
  5. 数据仓库和数据集市建模体系化总结
  6. 元数据管理在数据仓库的实践应用
  7. 大数据数据仓库建设
  8. 数据仓库体系建模&实施&注意事项小总结
  9. 数据仓库之架构
  10. 数据仓库之维度建模
  11. 构建与优化数据仓库架构与模型设计
  12. 如何避免数仓模型“烟囱式”建设
  13. 数仓DWD层案例实践
  14. 数仓服务平台建设实践
  15. 数仓ADS层指标统计案例
  16. 大厂实时数仓架构图
  17. 浅谈数仓模型
  18. 数仓建模 - 维度 vs 关系
  19. 实时数仓 | 流式ETL实践方案
  20. 建设实时数仓之前的思考与方案记录
  21. 数仓埋点体系 | 埋点设计、管理与应用
  22. 京东—实时数仓治理与实战
  23. 快手领域数据建设
  24. 数据模型建设实践
  25. 数据模型架构规范
  26. ETL和数据建模
  27. 网易云音乐数仓建设之路




数据治理和数据质量篇



  1. 数仓建设与数据治理

  2. 数据治理:数据质量提升十步法

  3. 数据治理工具:战略层工具+管理层工具+操作层工具

  4. 数据治理体系架构设计方案

  5. 基于数据中台的数据治理解决方案

  6. 华为数据治理及数据分类管理实践

  7. 大数据平台数据治理与建设

  8. 数据治理的定义,挑战和最佳实践

  9. 数据治理总体解决方案

  10. 基于数据中台的数据治理解决方案

  11. 数据资产治理-元数据采集那点事

  12. Atlas——元数据存储模型分析

  13. 元数据管理在数据仓库的实践应用

  14. 元数据管理与企业数据运营

  15. 主数据管理(MDM)解决方案

  16. 有赞数据地图实践

  17. 数仓建设之架构分层、指标体系、词根、血缘




数据分析数据指标篇



  1. 必知必会的数据分析知识之数据指标

  2. 数据分析之数据预处理、分析建模、可视化

  3. 【PySpark源码解析】用Python调用高效Scala接口,搞定大规模数据分析

  4. 数据指标中心的建设

  5. 数据指标体系如何从设计到落地

  6. 数仓ADS层指标统计案例

  7. 大数据环境下数据质量指标体系

  8. 数据指标体系建设方法




用户画像篇



  1. 用户画像方法论

  2. 用户画像标签体系构建方法

  3. 用户画像 | 标签数据存储之Hive真实应用

  4. 数据标签分类设计与实现方法

  5. 推荐系统之标签体系




大数据计算引擎篇



  1. 从 Spark 做批处理到 Flink 做流批一体

  2. Spark性能优化和故障处理

  3. 京东Spark自研Remote Shuffle Service在大促中的应用实践

  4. 如何获取Yarn和Spark UI界面指标信息

  5. Hadoop和Spark技术分享.ppt

  6. 利用Spark DataSource API实现Rest数据源

  7. Spark面试必问:Spark shuffle

  8. Spark如何协调完成整个Job的执行

  9. Spark Job物理执行解析

  10. Spark架构、cache和checkpoint区别和联系

  11. Spark Job逻辑执行图和数据依赖解析

  12. 字节跳动在Spark SQL上的核心优化实践

  13. 如何避免Spark SQL做数据导入时产生大量小文件

  14. Spark + Canal + Kafka打造Mysql增量数据实时进行监测分析

  15. 数据本地性对 Spark 生产作业容错能力的负面影响

  16. 基于Flink+ClickHouse打造轻量级点击流实时数仓

  17. Flink网络流控及反压机制

  18. 字节跳动基于Flink的MQ-Hive实时数据集成

  19. Flink经典的生产问题和解决方案

  20. 基于 Flink SQL 构建流批一体的 ETL 数据集成




OLAP篇



  1. 数据立方体与OLAP

  2. 京东OLAP亿级查询高可用实践

  3. OLTP与OLAP的关系是什么?

  4. 从 ClickHouse 到 ByteHouse:实时数据分析场景下的优化实践

  5. ClickHouse在京东流量分析的应用实践

  6. ClickHouse特性及底层存储原理

  7. HBase、Kudu和ClickHouse横向对比V2.0

  8. Kylin、Druid、ClickHouse核心技术对比

  9. 为数据分析而生——Apache Doris




SQL篇



  1. 万字详解MySQL性能优化

  2. Hive SQL优化思路

  3. SQL 子查询的优化

  4. SQL语句中 left join 后用 on 还是 where,区别大了!

  5. SQL案例分析之人-货-场指标体系建设

  6. SQL 窗口函数的优化和执行

  7. 涨姿势了!delete后加 limit是个好习惯么?




面试篇



  1. 一文掌握HBase核心知识以及面试问题

  2. 大数据之数据仓库面试题

  3. 一文概览数据仓库知识和面试

  4. Spark面试必问:Spark shuffle

  5. ZooKeeper面试题解析

  6. 高级大数据研发工程师面试题总结

  7. 数仓相关面试题

  8. Hive经典面试题之连续登录、行转列和列转行

  9. 海量大数据处理面试题和思路总结

  10. 海量小文件问题综述和解决攻略




程序员篇



  1. 漫谈:程序员已经饱和了吗?

  2. 不容小觑的背景调查

  3. 深度思考:为什么国内 996 干不过国外的 955?





Hadoop篇



  1. 大数据技术之Hadoop(生产调优手册)

  2. Hadoop IO/压缩/序列化

  3. Hadoop 生态里,Hive有何优越性?

  4. Hive数据存储格式和Hive数据压缩总结

  5. Hive - ORC 文件存储格式详细解析

  6. Hive中的数据迁移--迁移多库数据以及实际遇到的问题解

  7. Hadoop JMX监控和预警

  8. Parquet文件存储格式详细解析




分布式消息系统篇



  1. Pulsar、Kafka和Redis消息队列对比

  2. Kafka存储结构以及Log清理机制

  3. 深度:Kafka 集群突破百万 partition 的技术探索

  4. Uber的多区域Kafka灾备实践

  5. Kafka丢失数据问题优化总结以及重复消费原因分析

  6. Kafka作为存储系统在Twitter的应用

  7. Pulsar处理TB级日志服务实践




其他篇



  1. 分布式数据库如何平衡一致性和读写延迟?

  2. 如果设计分布式文件系统,该从哪些方面考虑?

  3. 实时流处理系统反压机制(BackPressure)综述

  4. 浅谈to B和to C数据开发的差异

  5. 大数据开源框架技术汇总


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存