一生数据人

其他

实战|HDFS监控运维最佳实践

基于场景实现的Jenkins自助化任务流量Block读、写次数采集项:采集Datanode数据进行汇聚计算。网络进出流量采集项:node_network_receive_bytes_total/
2019年3月6日
其他

面试|图解kafka的高可用机制

对于一个复杂的分布式系统,如果没有丰富的经验和牛逼的架构能力,很难把系统做得简单易维护,我们都知道,一个软件的生命周期中,后期维护占了70%,所以系统的可维护性是极其重要的,
2019年2月11日
其他

干货|kafka最佳实践

https://www.confluent.io/blog/how-choose-number-topics-partitions-kafka-cluster
2019年1月28日
其他

spark sql 源码剖析 OptimizeIn 篇

中的原始去重了,但是仍然是list类型,sql中谓词的判断还是要去遍历list,然后一个元素一个元素的去判断。这个主要的原因是有一个阈值,低于这个阈值就不转换为
2019年1月8日
其他

spark sql 源码剖析 PushDownPredicate:谓词不是想下推,想推就能推

到了逻辑优化这一步就是利用scala强大的case正则匹配,对一个由各种operator组成的AST树尽其所能的匹配和修改,下面我们看下PushDownPredicate
2019年1月2日
其他

如果有人问你 Structured Streaming 原理,让他看这篇文章

在编程模型上暴露给用户的是,每次持续查询看做面对全量数据(而不仅仅是本次执行信收到的数据),所以每次执行的结果是针对全量数据进行计算的结果。
2018年11月28日
其他

是时候学习真正的 spark 技术了

七牛云是知名云计算及数据服务提供商,在海量文件存储、CDN内容分发、视频点播、互动直播及大规模异构数据的智能分析与处理等技术深度投入,致力以数据科技驱动数字化未来,赋能各行业全面进入数据时代。
2018年11月21日
其他

当 Structured Streaming 碰到 kafka

可以被看成一个无限的流,里面的流数据是短暂存在的,如果不消费,消息就过期滚动没了,这就涉及一个问题,就是你如果开始消费,就要定一下从什么位置开始。
2018年10月29日
其他

从0到1认识 SparkSQL

Presto、SparkSQL等。下图是一个示例性的SQL语句(有两张表,其中people表主要存储用户基本信息,score表存储用户的各种成绩),通过Parser解析后的AST语法树如右图所示:
2018年9月18日
其他

彻底解决 es 的 unassigned shards 症状

把本地的数据进行删除,然后重新开始恢复集群的其他分片(然后这又导致了一个新的再平衡)如果这一切听起来是不必要的且开销极大,那就对了。是的,不过前提是你知道这个节点会很快回来。如果节点
2017年11月13日
其他

Spark 的 Structured Streaming是如何搞定乱序的事件时间的

time是事件发生的时间,经常以时间戳表示,并和数据一起发送。带时间戳的数据流有,Web服务日志、监控agent的日志、移动端日志等;
2017年10月19日
其他

彻底搞懂spark的shuffle过程(shuffle writer 的 UnsafeShuffleWriter)

排好序的数据经过序列化压缩输出到换一个临时文件的一段,并且记录每个分区段的seek位置,方便后续可以单独读取每个分区的数据,读取流经过解压反序列化,就可以正常读取了。
2017年10月16日
其他

彻底搞懂spark的shuffle过程(shuffle write)

我们抽象出来其中的rdd和依赖关系,如果对这块不太清楚的可以参考我们之前的
2017年9月28日
自由知乎 自由微博
其他

spark streaming 读取 kafka 的各种姿势解析

org.apache.spark.streaming.kafka010.LocationStrategies.PreferConsistent import
2017年9月6日
其他

spark 自己的内存管理——Tungsten 探秘

对于off-heap的memory,obj为null,offset则为绝对的内存地址,对于on-heap的memory,obj则是JVM对象的基地址,offset则是相对于改对象基地址的偏移。
2017年8月8日
其他

Spark Streaming中流式计算的困境与解决之道

"这个是很久之前写的一篇文章,推荐大家看下".replace(/\r/g,"").replace(/\n/g,"").replace(/\s/g,"
2017年6月12日
其他

对 spark 中 DAGScheduler 阶段划分的一次探索

RDD的每一个partition都依赖于parent
2017年5月18日
其他

Spark streaming 设计与实现剖析

jobScheduler.receiverTracker.allocateBlocksToBatch(time)
2017年4月24日
其他

spark 自己的分布式存储系统 - BlockManager

sc.textFile("/fusionlog/midsourcenew/2017-03-13-18-15_2.gz").cache() file.count() file.count()有以下日志
2017年3月30日