首页
下载应用
提交文章
关于我们
🔥 热搜 🔥
1
1
2
中共中央
3
123456
4
@葫芦岛都市网
5
@律法帝国
6
@i商周
7
@930老友记
8
@日照日报
9
九边
10
@景来律师
分类
社会
娱乐
国际
人权
科技
经济
其它
首页
下载应用
提交文章
关于我们
🔥
热搜
🔥
1
1
2
中共中央
3
123456
4
@葫芦岛都市网
5
@律法帝国
6
@i商周
7
@930老友记
8
@日照日报
9
九边
10
@景来律师
分类
社会
娱乐
国际
人权
科技
经济
其它
法明传[2024]173号:1月1日起,未用示范文本提交起诉状,部分法院将不予立案
法明传[2024]173号:关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)
2025.1.1起,全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)
法明传[2024]173号:1月1日起,未用示范文本提交起诉状,部分法院将不予立案
突然意外坠落!2人身亡!
一生数据人
筛选:
全部
仅被删
排序:
热门
实时
其他
实战|HDFS监控运维最佳实践
基于场景实现的Jenkins自助化任务流量Block读、写次数采集项:采集Datanode数据进行汇聚计算。网络进出流量采集项:node_network_receive_bytes_total/
一生数据人 -
2019年3月6日
其他
面试|图解kafka的高可用机制
对于一个复杂的分布式系统,如果没有丰富的经验和牛逼的架构能力,很难把系统做得简单易维护,我们都知道,一个软件的生命周期中,后期维护占了70%,所以系统的可维护性是极其重要的,
张江打工人 -
2019年2月11日
其他
干货|kafka最佳实践
https://www.confluent.io/blog/how-choose-number-topics-partitions-kafka-cluster
张江打工人 -
2019年1月28日
其他
spark sql 源码剖析 OptimizeIn 篇
中的原始去重了,但是仍然是list类型,sql中谓词的判断还是要去遍历list,然后一个元素一个元素的去判断。这个主要的原因是有一个阈值,低于这个阈值就不转换为
张江打工人 -
2019年1月8日
其他
spark sql 源码剖析 PushDownPredicate:谓词不是想下推,想推就能推
到了逻辑优化这一步就是利用scala强大的case正则匹配,对一个由各种operator组成的AST树尽其所能的匹配和修改,下面我们看下PushDownPredicate
张江打工人 -
2019年1月2日
其他
如果有人问你 Structured Streaming 原理,让他看这篇文章
在编程模型上暴露给用户的是,每次持续查询看做面对全量数据(而不仅仅是本次执行信收到的数据),所以每次执行的结果是针对全量数据进行计算的结果。
张江打工人 -
2018年11月28日
其他
是时候学习真正的 spark 技术了
七牛云是知名云计算及数据服务提供商,在海量文件存储、CDN内容分发、视频点播、互动直播及大规模异构数据的智能分析与处理等技术深度投入,致力以数据科技驱动数字化未来,赋能各行业全面进入数据时代。
张江打工人 -
2018年11月21日
其他
当 Structured Streaming 碰到 kafka
可以被看成一个无限的流,里面的流数据是短暂存在的,如果不消费,消息就过期滚动没了,这就涉及一个问题,就是你如果开始消费,就要定一下从什么位置开始。
张江打工人 -
2018年10月29日
其他
从0到1认识 SparkSQL
Presto、SparkSQL等。下图是一个示例性的SQL语句(有两张表,其中people表主要存储用户基本信息,score表存储用户的各种成绩),通过Parser解析后的AST语法树如右图所示:
张江打工人 -
2018年9月18日
其他
彻底解决 es 的 unassigned shards 症状
把本地的数据进行删除,然后重新开始恢复集群的其他分片(然后这又导致了一个新的再平衡)如果这一切听起来是不必要的且开销极大,那就对了。是的,不过前提是你知道这个节点会很快回来。如果节点
张江打工人 -
2017年11月13日
其他
Spark 的 Structured Streaming是如何搞定乱序的事件时间的
time是事件发生的时间,经常以时间戳表示,并和数据一起发送。带时间戳的数据流有,Web服务日志、监控agent的日志、移动端日志等;
张江打工人 -
2017年10月19日
其他
彻底搞懂spark的shuffle过程(shuffle writer 的 UnsafeShuffleWriter)
排好序的数据经过序列化压缩输出到换一个临时文件的一段,并且记录每个分区段的seek位置,方便后续可以单独读取每个分区的数据,读取流经过解压反序列化,就可以正常读取了。
张江打工人 -
2017年10月16日
其他
彻底搞懂spark的shuffle过程(shuffle write)
我们抽象出来其中的rdd和依赖关系,如果对这块不太清楚的可以参考我们之前的
张江打工人 -
2017年9月28日
自由知乎
自由微博
其他
spark streaming 读取 kafka 的各种姿势解析
org.apache.spark.streaming.kafka010.LocationStrategies.PreferConsistent import
张江打工人 -
2017年9月6日
其他
spark 自己的内存管理——Tungsten 探秘
对于off-heap的memory,obj为null,offset则为绝对的内存地址,对于on-heap的memory,obj则是JVM对象的基地址,offset则是相对于改对象基地址的偏移。
张江打工人 -
2017年8月8日
其他
Spark Streaming中流式计算的困境与解决之道
"这个是很久之前写的一篇文章,推荐大家看下".replace(/\r/g,"").replace(/\n/g,"").replace(/\s/g,"
张江打工人 -
2017年6月12日
其他
对 spark 中 DAGScheduler 阶段划分的一次探索
RDD的每一个partition都依赖于parent
张江打工人 -
2017年5月18日
其他
Spark streaming 设计与实现剖析
jobScheduler.receiverTracker.allocateBlocksToBatch(time)
张江打工人 -
2017年4月24日
其他
spark 自己的分布式存储系统 - BlockManager
sc.textFile("/fusionlog/midsourcenew/2017-03-13-18-15_2.gz").cache() file.count() file.count()有以下日志
spark技术分享 -
2017年3月30日
{{{deleted_alert}}}
{{classification}}
{{{title}}}
{{{preview}}}
{{nickname}}
{{ct}}
更多