其他
【大数据学习与分享】技术干货合集
【大数据学习与分享】主要专注于大数据领域常用的技术,如Spark、Hadoop、Hive、HBase、Kafka、Zookeeper等技术的使用、实战技巧、源码解读,语言主要以Java和Scala为主,保证文章质量,为大家提供一个优质的大数据学习与分享平台。同时也会涉及到目前市场上已经开源的并且在企业中已得到实际应用的基于这些技术进行“封装”的一些技术。
但是专注于大数据却并不仅仅是大数据,毕竟技术是相通的,很多技术往往都有其共性,但也有各自的特色也就有了不同的适用场景。我们在学习一个技术的时候,不仅仅要学习如何用这个技术、如何学习它的原理等,更要了解它的思想,比如设计思想。这不仅仅会让我们对这个技术有更深层次的理解,也会帮助我们迅速的学习其他的如与其相关的技术,做到举一反三,事半而功倍。
大数据和OLAP技术汇总篇
Spark篇
Spark集群和任务执行 对Spark硬件配置的建议 Spark闭包 | driver & executor程序代码执行 Spark RDD详解 Spark为什么只有在调用action时才会触发任务执行呢(附算子优化和使用示例)? 通过spark.default.parallelism谈Spark并行度 聊聊Spark的分区 重要 | Spark分区并行度决定机制 Spark在处理数据的时候,会将数据都加载到内存再做处理吗? Spark SQL | 目前Spark社区最活跃的组件之一 Spark SQL解析查询parquet格式Hive表获取分区字段和查询条件 Spark存储Parquet数据到Hive,对map、array、struct字段类型的处理 Spark SQL 小文件问题处理 SparkSQL与Hive metastore Parquet转换 Spark SQL如何选择join策略 Spark SQL中Not in Subquery为何低效以及如何规避 SparkSQL中产生笛卡尔积的几种典型场景以及处理策略 SparkSQL真的不支持存储NullType类型数据到Parquet吗? Spark中广播变量详解以及如何动态更新广播变量 Spark流式状态管理 解析SparkStreaming和Kafka集成的两种方式 Spark推荐系统实践 Spark实现推荐系统中的相似度算法 Spark MLlib中KMeans聚类算法的解析和应用 Spark和Spring整合处理离线数据 通过Spark生成HFile,并以BulkLoad方式将数据导入到HBase 如何获取流式应用程序中checkpoint的最新offset Spark之离线统计热点城市信息 学好Spark必须要掌握的Scala技术点 Spark Executor内存管理 Spark 数据倾斜及其解决方案 不可不知的Spark调优点 重要 | Spark和MapReduce的对比 Spark和MapReduce任务计算模型 Apache Spark 3.0.0重磅发布 —— 重要特性全面解析 自适应查询执行:在运行时提升Spark SQL执行性能 【PySpark源码解析】用Python调用高效Scala接口,搞定大规模数据分析
Hadoop篇
Hive篇
Apache Hive Hive Join优化 Hadoop支持的压缩格式对比和应用场景以及Hadoop native库 Hive实现自增序列及元数据问题 Hive Query生命周期 —— 钩子(Hook)函数篇 Hive常用性能优化方法实践全面总结 基于Hive进行数仓建设的资源元数据信息统计 Spark SQL/Hive实用函数大全 经典的SparkSQL/Hive-SQL/MySQL面试-练习题 Hive中的count(distinct)优化
HBase篇
深入探讨HBASE HBase高级特性、rowkey设计以及热点问题处理 HBase中Memstore存在的意义以及多列族引起的问题和设计 Hive数据导入HBase引起数据膨胀引发的思考 通过Spark生成HFile,并以BulkLoad方式将数据导入到HBase 从HBase底层原理解析HBASE列族不能设计太多的原因? 通过BulkLoad快速将海量数据导入到HBase
Kafka篇
分布式流平台Kafka Kafka作为消息系统的系统解析 Kafka中sequence IO、PageCache、SendFile的应用详解 Kafka分区分配策略(Partition Assignment Strategy) 如何为Kafka集群确定合适的分区数以及分区数过多带来的弊端 Kafka集群消息积压问题及处理策略 Kafka作为存储系统在Twitter的应用
数据仓库和数据分析篇
九种常见的数据分析模型 从统计学到机器学习,必须掌握的5个核心概念 浅谈数据仓库建设中的数据建模方法 数据仓库架构和建设方法论 数据湖VS数据仓库之争?阿里提出湖仓一体架构 初创公司数据仓库的建设实践 详解数据仓库的实施步骤 辨析BI、数据仓库、数据湖和数据中台内涵及差异点 企业大数据平台仓库架构建设思路
应用实践篇
大数据平台架构设计探究 都在说实时数据架构,你了解多少? 从 Spark Streaming 到 Apache Flink:bilibili 实时平台的架构与实践 菜鸟供应链实时数仓的架构演进及应用场景 OPPO 实时数仓揭秘:从顶层设计实现离线与实时的平滑迁移 有赞大数据平台安全建设实践 海量数据实时分析服务技术架构演进 有赞数据仓库实践之路 有赞大数据离线集群迁移实战 饿了么元数据管理实践之路 元数据:数据治理的基石 数据质量:数据治理的核心 当我们聊数据质量的时候,我们在聊些什么? 有赞数据仓库元数据系统实践 面向企业数据中台的数据治理七把利剑 数据资产,赞之治理 下一个风口-基于数据湖架构下的数据治理 从数仓到数据中台,谈技术选型最优解 辨析BI、数据仓库、数据湖和数据中台内涵及差异点 有赞大数据离线集群迁移实战 如何设计实时数据平台 —— 技术选型与架构设计 数仓大法好!跨境电商 Shopee 的实时数仓之路 实时离线一体化助力渠道分析系统 推荐系统之标签体系
编程语言篇
Linux
职场经验篇
其他