突发!员工跳楼!只拿低保工资!央企设计院集体罢工!

突发!北京某院集体罢工!

淄博向东,惠泊向西:在人民与人民币之间,惠泊停车选择了人民币

【少儿禁】马建《亮出你的舌苔或空空荡荡》

10部适合女性看的唯美情色电影

自由微信安卓APP发布,立即下载! | 提交文章网址

俊红的数据分析之路

Sql如何统计连续打卡天数

今天来解一道题面试中可能经常会被一些面试官拿来“刁难”的题,就是《如何统计连续打卡天数》,当然了这里面的打卡可以换成任意其他行为,比如连续登陆天数,连续学习天数,连续购买天数,这里的天数也是可以换成小时或者别的时间单位的。这个问题的逻辑还是有点复杂,如果要是之前没遇到过这种问题,当场被问到的时候,肯定会一脸懵。直接来看实战,现在有一张表t,这张表存储了每个员工每天的打卡情况,现在需要统计截止目前每个员工的连续打卡天数,表t如下表所示:uidtdateis_flag12020/2/1112020/2/2012020/2/3112020/2/4112020/2/5012020/2/6112020/2/7112020/2/8122020/2/1122020/2/2022020/2/3022020/2/4122020/2/5122020/2/6122020/2/7122020/2/81上表中uid是用户id,tdate是日期,is_flag是记录用户当天是否打卡,1为打卡,0为未打卡。我们希望得到的结果为:uidflag_days1325这个逻辑还是挺难想的,第一个想法就是通过前后数据偏移来实现,就是将is_flag向前移动一行或者向后移动一行,然后和原来的is_flag标签做差,如果结果为0,说明前后两天的值是相同的,要么都是0,要么都是1。但是还是不能够得出我们想要的结果。再换一种思路:如果是连续打卡,那么打卡日期与一个递增的数字依次做差的结果值应该是相等的,不理解这句话没关系,看具体结果你就明白了。我们先获取每个用户在这一段时间内所有打卡的排名,是所有打卡的排名哦,利用的是窗口函数的row_number(),代码如下:select
2020年11月26日

讲讲你不知道的窗口函数

by子句再想象一下,上面我们是拿每个店铺每天的销量和全部店铺全部天数的平均销量作比较,如果我们现在想让每个店铺每天的销量与自身全部天数的平均值作比较,该怎么实现呢?答案就是使用
2019年5月10日

『对比Excel,轻松学习Python数据分析』新书发布

之前在公众号提过,我写了一本书,现在这本书终于面世了,这本书就是『对比Excel,轻松学习Python数据分析』,这本书是写什么的,以及这本书怎么写的,相信大家通过书名就能了解一二,但还是有必要专门写一篇文章来详细介绍一下。书就是长这个样子啦1.本书简介集Python、Excel、数据分析为一体是本书的一大特色。本书围绕整个数据分析的常规流程:熟悉工具—明确目的—获取数据—熟悉数据—处理数据—分析数据—得出结论—验证结论—展示结论进行Excel和Python的对比实现,告诉
2019年2月20日

你们要的代码来了

总第111篇前言上一篇文章发出后,大家反响还不错,文章的阅读量也是我公众号历史阅读量最高的一篇(截至目前阅读已经1124啦),在其他平台发布以后阅读量已经超过5w了,果真还是平台的影响力大。上一篇文章中之所以没带代码主要是因为我只想写一篇数据分析报告,咱们平常给领导看数据分析报告,肯定也不会把Sql代码、Python代码放在PPT中,给老板讲述每一行Sql代码是什么意思,所以就没有放代码。但是大家都很爱学习,都想要代码学习学习,所以今天就专门来一篇讲讲代码。在开始具体的代码讲解之前,我需要说明一下关于菊粉人数中摩羯座人数最多这个结论的一些争议,有人评论说微博用户如果不设置年龄的话,默认就是1月1,也就是摩羯座,所以摩羯座人数比较多。先来看两张图:未设置年龄前的信息设置个人信息设置年龄后的信息通过上面几张截图来看的话,如果未设置年龄时,并不会默认显示成摩羯座,所以应该就不存在大家说的那种情况。还有所在地和家乡是可以选择则其他的,性别、年龄、星座是不可以选择其他。我们本次就是要获取这几个字段。本篇主要分为三个部分:数据获取数据预处理可视化图表制作数据抓取先讲讲数据抓取的逻辑,最终目的就是要找到pick王菊的人都是哪些人,刚开始想的是直接抓取王菊的粉丝列表,但是后来发现微博数据有限制,只能抓取少量的粉丝列表,所以这个方案行不通,只能换下一个。在小歪大佬的建议下,决定抓取王菊微博留言下面的用户,因为这些用户是和王菊有过互动的,要比那些只关注没有互动(这里的互动只指评论这一动作)的用户粉的程度要大,更有代表性。所以最终的一个数据抓取思路就是:通过获取微博评论下的用户,然后进而获取用户基本信息,具体实现代码如下:获取每条微博评论url我们先随便点击一条微博的评论进去,看看我们要的字段都在哪里。最近一条微博的评论可以看到,有评论text,以及每一条text对应的user_id,找到了字段位置,我们再来看看这些字段对应url是什么,有什么规律。微博评论url通过查看这个urlhttps://m.weibo.cn/api/comments/show?id=4248590911655823&page=1,我们大概可以猜出,id前面的部分https://m.weibo.cn/api/comments/show?应该是所有微博评论都一样的,id值是唯一的,每一个id对应一条微博,而page是表示一条微博的评论存放在多页里面,经过验证确实如此,而且page最大值就是100,100以后就不返回数据了。所以接下来我们的目标就是获取每条微博对应的唯一id值。回到用户主页,微博id可以看到每条微博的发布时间,以及微博id,也就是只需要解析用户主页url就可以得到该用户的每条微博对应的id值。url
2018年6月9日