zhisheng

其他

京东——实时数仓治理与实战

PPTEND热门内容两年经验斩获蚂蚁/头条/PingCAP
2021年12月3日
其他

税前2万4,到手1万4???年终奖计税方式2022年1月1日起有新变化!

这是前几天脉脉榜三的一则帖子。原贴是这么说的:有史以来扣税最多的一次,税前2万4,到手1万4,心态崩了。万万没想到会扣这么多。网帖发出后,引发了网友的围观、转载和评论。笔者把一些高赞的回答也搬出来给大家瞅瞅。体制内优势出来了吧,房补26%,年金双边12%,一共38%,这部分不交税,省了太多的税了,实际收入不比互联网差到哪,性价比互联网远不如。我25k税前,到手1.7,公积金12%。这还是在上半年有加班费早就触发更高税率的前提下。我不信你低1k,到手能少3k。很多人想不明白,我公司就是低底薪高公积金高年终奖的国企,税后收入比底薪高的可强太多了。可惜结果就是大家找工作都看重月薪。工资没变化,但个税突然多了很多,这是什么原因?难道是公司有问题?算错了?回答下方除了骂的、断章取义的、混淆概念的,没有任何一点有价值的回答。笔者就今天这个热榜话题,来给大家解答一下。解答这个问题,笔者建议各位先去了解一下关于个税“前低后高、逐渐增加”这个说法。为什么会有这个说法?自2018年10月起,个人所得税改革进入过渡期,工资薪金所得的基本减除费用调整为5000元,并适用新的个人所得税税率表,将年度税率表按月换算,按照月应纳税所得额适用不同的税率。“前低后高、逐渐增加”这个规律就是因为由原来的按月扣税改为累计预扣。什么叫做累计预扣?我们还是用白话来说,也就是随着我们职场人的薪资增加,相对应的税率从低到高。只要达到限定数额就会产生税率跳档,于是,个人扣税也就越来越高了。具体是怎么算?笔者把国家税务总局的个税预扣预缴方法给你搬过来。累计预扣法的计算公式为:本期应预扣预缴税额=(累计预扣预缴应纳税所得额×预扣率-速算扣除数)-累计减免税额-累计已预扣预缴税额累计预扣预缴应纳税所得额=累计收入-累计免税收入-累计减除费用-累计专项扣除-累计专项附加扣除-累计依法确定的其他扣除可能很多人还是看不明白,那么,笔者就拿这位网易的网友例子,再给大家说白一点:你刚跳槽进网易,你薪资为24000,从五险一金预算下来,一个月大概在3000-5000元,如果有房贷跟子女教育的话,可以申请“专项附加扣除”,按照本期应预扣预缴税额公式算下来,一个月个税也就是240-300之间。按照2018年10月前的政策,一年下来缴税也就是3000-5000左右。但我们用新的个人所得税税率累计预扣算下来,就是:套用上面公式算下来,前几个月薪资少,累计预扣预缴应纳税所得额36000元以下是第一档,税率只有3%。半年后年薪进入第二档,税率就变成了10%,12g个月后,28万的年薪预扣税额就达到了税率20%这一档。不知道各位看懂了吗?这就是很多职场人突然扣税增长几倍的原因。按照累计预扣法,你月薪在不变的前提下,我们职场人多数在新入一家企业的前五个月个税都是按照3%扣缴,而高薪行业者多数在半年后就进入了“税率跳档”时期,所以,个税就会成倍增长。虽然看似税交得多,但也意味着他的收入更多。当然,薪资累计预扣是导致个税增加的一方面,还有一个原因就是年终奖。互联网公司,有些公司习惯年底发放年终奖,但也有很多企业喜欢在第二年的年中发放年终奖。说到年终奖,笔者就再提醒各位一句了。自2022年1月1日起,全年一次性奖金就也要并入当年综合所得,也要计算缴纳个人所得税。相关政策依据:财税[2018]164号关于全年一次性奖金、中央企业负责人年度绩效薪金延期兑现收入和任期奖励的政策(一)居民个人取得全年一次性奖金,符合《国家税务总局关于调整个人取得全年一次性奖金等计算征收个人所得税方法问题的通知》(国税发[2005]9号)规定的,在2021年12月31日前,不并入当年综合所得,以全年一次性奖金收入除以12个月得到的数额,按照本通知所附按月换算后的综合所得税率表(以下简称月度税率表),确定适用税率和速算扣除数,单独计算纳税。计算公式为:应纳税额=全年一次性奖金收入×适用税率-速算扣除数居民个人取得全年一次性奖金,也可以选择并入当年综合所得计算纳税。自2022年1月1日起,居民个人取得全年一次性奖金,应并入当年综合所得计算缴纳个人所得税。应纳税额=全年一次性奖金收入×适用税率-速算扣除数居民个人取得全年一次性奖金,也可以选择并入当年综合所得计算纳税。自2022年1月1日起,居民个人取得全年一次性奖金,应并入当年综合所得计算缴纳个人所得税。也就是说,今年年内取得的年终奖,缴纳个税有两种计税方式,即单独计税和合并计税。到了明年取得的收入,就只有合并计税一种方式了。来源:https://mp.weixin.qq.com/s/dbj6trO-tAUcnDXVSveW0QendFlink
2021年12月2日
其他

干掉IDEA:JetBrains推出下一代轻量级开发工具Fleet

UI。它的主要特性有:轻量级、智能、分布式、协作、多语言。非常重要的一点:开发Fleet的目的不是为了取代某个JetBrains旗下的工具,而是为了提供给用户更多的选择。轻量级JetBrains将
2021年12月1日
其他

Flink 在伴鱼的实践:如何保障数据的准确性

(用户提前约下周的课程)。此时数据的过期时间就需要我们特殊关系与处理,我们可以精确的计算先发生的事件,它的准确过期时间,例如:例如正式上课时间为三天后,所以,我们可将他们放入
2021年11月30日
其他

数仓 | 数据模型OneData实践

数仓建模-实现OneData经验数据治理问题数据孤岛:各部门、产品、业务的数据相互隔离,难以通过共性ID打通重复建设:重复的开发、计算、存储,带来高昂的数据成本数据歧义:指标定义口径不一致,造成计算偏差,应用困难OneData体系OneData是阿里巴巴多年大数据开发和治理实践中沉淀总结的方法论,包含
2021年11月28日
其他

腾讯——大数据安全体系介绍

PPTEND热门内容两年经验斩获蚂蚁/头条/PingCAP
2021年11月27日
其他

超牛逼的性能调优利器 — 火焰图

org.apache.catalina.loader.WebappClassLoaderBase.loadClass(WebappClassLoaderBase.java:1200)1587
2021年11月26日
其他

Java jar 如何防止被反编译?代码写的太烂,害怕被人发现

java作为解释型的语言,其高度抽象的特性意味其很容易被反编译,容易被反编译,自然有防止反编译措施存在。今天就拜读了一篇相关的文章,受益匪浅,知彼知己嘛!!之所以会对java的反编译感兴趣,那是因为自己在学习的过程中,常常需要借鉴一下别人的成果(你懂的...)。或许反编译别人的代码不怎么道德,这个嘛......废话不多说,正文如下:常用的保护技术由于Java字节码的抽象级别较高,因此它们较容易被反编译。本节介绍了几种常用的方法,用于保护Java字节码不被反编译。通常,这些方法不能够绝对防止程序被反编译,而是加大反编译的难度而已,因为这些方法都有自己的使用环境和弱点。隔离Java程序最简单的方法就是让用户不能够访问到Java
2021年11月25日
其他

聊聊Kafka中值得我们学习的优秀设计

,并不能直接在图中把Topic的相关单元画出需要注意:kafka在0.8版本以前是没有副本机制的,所以在面对服务器宕机的突发情况时会丢失数据,所以尽量避免使用这个版本之前的kafkaReplica
2021年10月28日
其他

你在被窝里刷手机岁月静好,一个​“神秘引擎”却在远方和时间赛跑

浅友们好~我是史中,我的日常生活是开撩五湖四海的科技大牛,我会尝试各种姿势,把他们的无边脑洞和温情故事讲给你听。如果你想和我做朋友,不妨加微信(shizhongmax)。你在被窝里刷手机岁月静好,一个“神秘引擎”却在远方和时间赛跑文
2021年10月27日
其他

Flink sql 之 TopN 与 StreamPhysicalRankRule (源码解析)

sql模块,源码里面肯定是在flink-table-planner包里面,接着topN那不就是ROW_NUMBER嘛,是个函数呀既然如此那就从flink源码的系统函数作为线索开始找起来,来到
2021年10月24日
其他

Flink SQL 之 Calcite Volcano优化器(源码解析)

Relnode新的等价节点relnode会匹配上新的规则,新的rule加入到rulequeue中进入下一次循环,直到没有rule可以匹配上,这样bestexp就可以返回优化后的最优的relnode了
2021年10月23日
其他

读文笔记:Kafka 官方设计文档

原文:http://kafka.apache.org/documentation/#design数据持久化不用惧怕文件系统磁盘的读写速度,取决于如何读写。对于线性读写方式,操作系统做了充分的优化:提前读
2021年10月21日
其他

TB级微服务海量日志监控平台

级别的日志。在成本、资源的有限条件下,所有所有的日志是不现实的,即使资源允许,一年下来将是一比很大的开销。所以我们采用了过滤、清洗、动态调整日志优先级采集等方案。首先把日志全量采集到
2021年10月20日
其他

Kafka Producer 实现源码分析

cluster);}默认分区器DefaultPartitioner选择分区的流程:至此,分析了发送前消息的拦截修改、键值序列化、确定分区的逻辑二:内存层职责:内存池资源管理,消息压缩与
2021年10月19日
其他

腾讯 Code Review 规范出炉!

中思考和总结最佳实践我这里先给一个我自己的总结:所谓架构师,就是掌握大量设计理念和原则、落地到各种语言及附带工具链(生态)下的实践方法、垂直行业模型理解,定制系统模型设计和工程实践规范细则。进而控制
2021年10月17日
其他

《深入理解 JVM 3ed》读书笔记

引用路径解决:若为内存泄露,则修改代码用null显式赋值、虚引用等方式及时回收大对象;若为内存溢出,大对象都是必须存活的,则调大-Xmx、减少大对象的生命周期、检查数据结构使用是否合理等//
2021年10月14日
其他

神器 JMH + Arthas 性能监控

methodName我在之前Log4j2的相关博客里面讲到过,任何一个appender,最核心的方法就是他的append方法。所以我们分别trace两个程序的append方法。trace
2021年10月12日
其他

实时离线一体大数据在资产租赁saas服务中使用

目录流水查询需求什么是实时数据即时查询系统架构实现扩大业务覆盖率大数据需求实时离线一体化系统之技术架构实时离线一体化系统之数据流实时离线一体化接入数据仓库分层规范化预计算方案(Kylin+Kudu)实时离线开发统一访问数据入口透明的数据分层存储展望未来
2021年10月7日
其他

实时平台如何管理多个 Flink 版本?(上)

多,相对于早期版本意味着稳定性也高些。除了国内一二线公司有特别多的专职人去负责这块,大多数中小公司最简单最快捷体验到稳定性最高、功能性最多、性能最好的
2021年9月30日
其他

突发!LayUI宣布下线

Boot,推荐一个连载多年还在继续更新的免费教程:http://blog.didispace.com/spring-boot-learning-2x/而
2021年9月27日
其他

重磅!Apache Kafka 3.0 发布!

返回主题/分区中具有最高时间戳的记录的偏移量和时间戳。(这是不是与什么的AdminClient收益已经为最新的偏移,这是下一个记录的偏移,在主题/分区写入混淆。)这个扩展现有ListOffsets
2021年9月24日
其他

Kafka 的存储机制以及可靠性

一、kafka的存储机制1、segment2、读取数据二、可靠性保证1、AR2、生产者可靠性级别3、leader选举4、kafka可靠性的保证
2021年9月23日
其他

日志系统新贵 —— Loki 详解

背景最近,在对公司容器云的日志方案进行设计的时候,发现主流的ELK或者EFK比较重,再加上现阶段对于ES复杂的搜索功能很多都用不上最终选择了Grafana开源的Loki日志系统,下面介绍下Loki的背景。背景和动机当我们的容器云运行的应用或者某个节点出现问题了,解决思路应该如下:我们的监控使用的是基于Prometheus体系进行改造的,Prometheus中比较重要的是Metric和Alert,Metric是来说明当前或者历史达到了某个值,Alert设置Metric达到某个特定的基数触发了告警,但是这些信息明显是不够的。我们都知道,Kubernetes的基本单位是Pod,Pod把日志输出到stdout和stderr,平时有什么问题我们通常在界面或者通过命令查看相关的日志,举个例子:当我们的某个Pod的内存变得很大,触发了我们的Alert,这个时候管理员,去页面查询确认是哪个Pod有问题,然后要确认Pod内存变大的原因,我们还需要去查询Pod的日志,如果没有日志系统,那么我们就需要到页面或者使用命令进行查询了:如果,这个时候应用突然挂了,这个时候我们就无法查到相关的日志了,所以需要引入日志系统,统一收集日志,而使用ELK的话,就需要在Kibana和Grafana之间切换,影响用户体验。所以
2021年9月19日
其他

花了3个月,濒临崩溃的K8S集群有救了……

一、前言我司的集群时刻处于崩溃的边缘,通过近三个月的掌握,发现我司的集群不稳定的原因有以下几点:1、发版流程不稳定2、缺少监控平台【最重要的原因】3、缺少日志系统4、极度缺少有关操作文档5、请求路线不明朗总的来看,问题的主要原因是缺少可预知的监控平台,总是等问题出现了才知道。次要的原因是服务器作用不明朗和发版流程的不稳定。二、解决方案1、发版流程不稳定重构发版流程。业务全面k8s化,构建以kubernetes为核心的ci/cd流程。1)发版流程有关发版流程如下:浅析:研发人员提交代码到developer分支(时刻确保developer分支处于最新的代码),developer分支合并到需要发版环境对应的分支,触发企业微信告警,触发部署在k8s集群的gitlab-runner
2021年9月15日
其他

好好的ClickHouse不用,日志存储分析非要上ES和MySQL?

相关统计函数的完整列表:https://clickhouse.tech/docs/en/sql-reference/aggregate-functions/reference/这些大部分在
2021年9月14日
其他

Apache Spark 内存管理(堆内/堆外)详解

导读:Spark作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解Spark内存管理的基本原理,有助于更好地开发Spark应用程序和进行性能调优。本文将详细介绍两部分内容,第一部分介绍Spark堆内和堆外内存的规划,主要包含堆内内存、堆外内存以及内存管理接口等方面;第二部重点介绍Spark内存空间的分配,主要包含静态内存管理与统一内存管理的机制。前言本文旨在梳理出Spark内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于Spark
2021年9月13日
其他

OLAP 技术选型:对什么进行选型?

一行中的数据在存储介质中以连续存储形式存在。随着大数据的发展,现在出现的列式存储和列式数据库。它与传统的行式数据库有很大区别的。列式存储(Column-based)是相对于行式存储来说的,新兴的
2021年9月10日
其他

滴滴出行数据应用平台建设实践

伴随着各种随身设备、物联网和云计算、云存储等技术的发展,数据内容和数据格式多样化,数据颗粒度也愈来愈细,随之出现了分布式存储、分布式计算、流处理等大数据技术,各行业基于多种甚至跨行业的数据源相互关联探索更多的应用场景,同时更注重面向个体的决策和应用的时效性。因此,大数据的数据形态、处理技术、应用形式构成了区别于传统数据应用的大数据应用。扫描下面二维码回复:滴滴
2021年9月9日
其他

StarRocks开源——携手未来,星辰大海!

各位大数据从业者:这是一个充满挑战的时代。数据驱动正在深刻地改变整个世界。我们的业务数据、数据报表、数据指标越来越多,但我们分析数据的速度却越来越慢,报表构建的复杂度越来越高。如何有效地分析这些海量的数据,真正有效地利用数据为业务创造价值?这是我们都在思考的重要问题。可能你曾经为此搭建过很多系统,做过很多尝试,但实际效果不佳。仔细想一想,你的数据分析架构是否也在面临以下的难题?(复杂的企业数据分析架构)第一,数据分析性能不达标。随着数据驱动的深入,业务提出了更多的分析需求,比如多维分析,实时分析,高并发查询和
2021年9月8日
其他

从 ClickHouse 到 ByteHouse:实时数据分析场景下的优化实践

在其内部支持多个消费线程,简单来说就是每一个线程它持有一个消费者,然后每一个消费者负责各自的数据解析、数据写入,这样的话就相当于一张表内部同时执行多个的
2021年9月6日
其他

万字详解 Spark开发调优(建议收藏)

但是要注意到这里为止优化还没有结束,由于rdd1被执行了两次算子操作,第二次执行reduce操作的时候,还会再次从源头处重新计算一次rdd1的数据,因此还是会有重复计算的性能开销。//
2021年9月4日
其他

基于 ElasticSearch 实现站内全文搜索

"\"content\":{\"type\":\"text\",\"analyzer\":\"ik_max_word\",\"search_analyzer\":\"ik_smart\"}\n"
2021年9月2日
其他

跨越速运 x DorisDB:统一查询引擎,强悍性能带来极速体验

跨越速运集团有限公司创建于2007年,目前服务网点超过3000家,覆盖城市500余个,是中国物流服务行业独角兽企业。跨越集团大数据中心负责全集团所有数据平台组件的建设和维护,支撑20余条核心业务线,面向集团5万多员工的使用。目前,大数据中心已建设数据查询接口1W+,每天调用次数超过1千万,TP99在1秒以下。我们利用DorisDB作为通用查询引擎,有效解决了原架构大量查询返回时间过长,性能达不到预期的问题。“
2021年9月1日
其他

用了ElasticSearch后,查询起飞了!

求并集)之间可以并行,效率更好。但是,位图有个很明显的缺点,不管业务中实际的元素基数有多少,它占用的内存空间都恒定不变。也就是说不适用于稀疏存储。业内对于稀疏位图也有很多成熟的压缩方案,lucene
2021年8月31日
其他

Flink 和 Iceberg 如何解决数据入湖面临的挑战

级别,这可能会带来一系列问题。如上图所示,首先带来的第一个问题是:文件数以肉眼可见的速度增长,这将对外面的系统造成越来越大的压力。压力主要体现在两个方面:第一个压力是,启动分析作业越来越慢,Hive
2021年6月28日
其他

深入解读 Flink SQL 1.13

中关于时间函数,时区支持的这些提升,是版本不兼容的。用户在进行版本更新的时候需要留意作业逻辑中是否包含此类函数,避免升级后业务受到影响。■
2021年6月24日
其他

网易云音乐数仓建设之路.pptx

大家好,本周六网易举办了现场的技术分享,其中有网易云音乐的数仓建设之路,这次技术分享现场是这样的,人头攒动~下面分享下讲解的干货内容,文末有完整版PPT下载方法!endFlink
2021年6月22日
其他

Flink+Hologres亿级用户实时UV精确去重最佳实践

因为业务需求不同,通常会分为两种场景:离线计算场景:以T+1为主,计算历史数据实时计算场景:实时计算日常新增的数据,对用户标签去重针对离线计算场景,Hologres基于RoaringBitmap,提供超高基数的UV计算,只需进行一次最细粒度的预聚合计算,也只生成一份最细粒度的预聚合结果表,就能达到亚秒级查询。具体详情可以参见往期文章>>Hologres如何支持超高基数UV计算(基于RoaringBitmap实现)对于实时计算场景,可以使用Flink+Hologres方式,并基于RoaringBitmap,实时对用户标签去重。这样的方式,可以较细粒度的实时得到用户UV、PV数据,同时便于根据需求调整最小统计窗口(如最近5分钟的UV),实现类似实时监控的效果,更好的在大屏等BI展示。相较于以天、周、月等为单位的去重,更适合在活动日期进行更细粒度的统计,并且通过简单的聚合,也可以得到较大时间单位的统计结果。主体思想Flink将流式数据转化为表与维表进行JOIN操作,再转化为流式数据。此举可以利用Hologres维表的insertIfNotExists特性结合自增字段实现高效的uid映射。Flink把关联的结果数据按照时间窗口进行处理,根据查询维度使用RoaringBitmap进行聚合,并将查询维度以及聚合的uid存放在聚合结果表,其中聚合出的uid结果放入Hologres的RoaringBitmap类型的字段中。查询时,与离线方式相似,直接按照查询条件查询聚合结果表,并对其中关键的RoaringBitmap字段做or运算后并统计基数,即可得出对应用户数。处理流程如下图所示方案最佳实践1.创建相关基础表1)创建表uid_mapping为uid映射表,用于映射uid到32位int类型。RoaringBitmap类型要求用户ID必须是32位int类型且越稠密越好(即用户ID最好连续)。常见的业务系统或者埋点中的用户ID很多是字符串类型或Long类型,因此需要使用uid_mapping类型构建一张映射表。映射表利用Hologres的SERIAL类型(自增的32位int)来实现用户映射的自动管理和稳定映射。由于是实时数据,
2021年6月8日
其他

DeltaLake在工业大脑的实践分享

作者介绍占怀旻,花名心渡,阿里云数字产业产研部-工业大脑团队的大数据工程师,目前的工作方向是利用大数据与AI技术,为工业企业客户构建数据中台,支撑工业企业的数字化转型和智能制造落地,用大数据技术来普惠更多的中国制造企业。前言
2021年5月17日
其他

数据赋能:Uber的数据治理实践分享

数据应该作为代码对待。对数据工件的创建、弃用和关键更改应该通过设计评审流程,并使用适当的书面文档,而且是以客户视角编写的文档。必须为模型更改指定审阅者,他们在更改落地之前进行评审。模型复用
2021年5月16日
其他

数据被动治理 -> 主动治理 -> 自动治理之路

数据已成为很多公司的核心资产,而在数据开发的过程中会引入各种质量、效率、安全等方面的问题,而数据治理就是要不断消除引入的这些问题,保障数据准确、全面和完整,为业务创造价值,同时严格管理数据的权限,避免数据泄露带来的业务风险。数据治理是数字时代很多公司一项非常重要的核心能力,本文介绍了美团酒旅平台在数据治理方面的实践。一、背景1.
2021年4月21日
其他

Redis、Kafka 和 Pulsar 消息队列对比

0.log,然后一直写直到写了18234条消息后,发现达到了设置的文件大小上限100M,然后就创建一个新的segment文件,名字是18234.log……-
2021年4月20日
其他

大白话认识 Kafka 背后优秀的架构设计

document.getElementById('js_content').addEventListener("selectstart",function(e){
2021年4月16日
其他

阿里集团大数据建设OneData体系.ppt

document.getElementById('js_content').addEventListener("selectstart",function(e){
2021年4月13日
其他

面试官:为什么 Kafka 如此之快?

O,这种方式在各种存储介质上的读写速度都非常快。人们普遍认为磁盘的读写速度很慢,但实际上存储介质(尤其是旋转介质)的性能很大程度上取决于访问模式。常见的7,200
2021年4月2日
其他

Flink 执行引擎:流批一体的融合之路

总的来说,有了这两种调度方式是可以基本满足流批一体的场景需求,但是也存在着很大的改进空间,具体来说体现在三个方面:架构不一致、维护成本高。调度的本质就是进行资源的分配,换句话说就是要解决
2021年3月31日
其他

ClickHouse 在日志存储与分析方面作为 ElasticSearch 和 MySQL 的替代方案

相关统计函数的完整列表:https://clickhouse.tech/docs/en/sql-reference/aggregate-functions/reference/这些大部分在
2021年3月20日
其他

Flink 1.12 以 upsert 的方式读写 Kafka 数据

view_total_pvuv_min;尖叫提示:如果指定了key字段前缀,但在DDL中并没有添加该前缀字符串,那么在向该表写入数时,会抛出下面异常:[ERROR]
2021年3月19日
其他

深入理解 YARN Resource Localization

NodeManager将资源本地化之后针对该Nodemanager上其它用户和Application的可见性。可见范围为PUBLIC、PRIVATE和APPLICATION。NOTE:
2021年3月18日