河南南阳收割机被堵事件:官员缺德,祸患无穷

极目新闻领导公开“记者毕节采访被打”细节:他们打人后擦去指纹

突发!员工跳楼!只拿低保工资!央企设计院集体罢工!

退休后的温家宝

突发!北京某院集体罢工!

自由微信安卓APP发布,立即下载! | 提交文章网址

DataGo数据狗

一图讲清因果推断方法论,无法 AB 测试时分析的万能钥匙

测试时,统计学上的“因果推断”方法正成为互联网业务评估应用的新方向,通常用于行为科学研究中,以了解从观察数据结果中的业务因果关系。2.
2020年11月14日

数据分析36计(13):中介模型利用问卷数据探究用户心理过程,产品优化思路来源

往期系列原创文章集锦:数据分析36计(12):做不了AB测试,如何量化评估营销、产品改版等对业务的效果数据分析36计(11):如何用贝叶斯概率准确提供业务方营销转化率数据分析36计(十):Facebook开源时间序列预测算法
2020年10月24日

数据分析36计(12):做不了AB测试,如何量化评估营销、产品改版等对业务的效果

测试也有一定的局限性,例如:需要花一定的时间实现,比较耗费人力;需要占用足量的随机流量,并且需要持续一段时间以收集数据;某些实验可能损害用户体验,例如给用户推荐一些并不匹配兴趣的内容;当可做
2020年10月16日

数据分析36计(11):如何用贝叶斯概率准确提供业务方营销转化率

点击上面查看该专辑往期文章👆👆👆1.
2020年8月2日

数据分析36计(十):Facebook开源时间序列预测算法 Prophet在分析师中热门使用

里面,是需要设置变点的位置的,而每一段的趋势和走势也是会根据变点的情况而改变的。在程序里面有两种方法,一种是通过人工指定的方式指定变点的位置;另外一种是通过算法来自动选择。因此Prophet
2020年6月26日

数据分析36计(九):倾向得分匹配法(PSM)量化评估效果分析

和潜在结果也是独立的,即做到实验中的随机性要求。理论上,如果我们对每一个实验组用户都在对照组里匹配一个得分相等(要求有点严苛)的用户,我们就能得到同质的实验组和对照组,就可以假装我们做了一个
2020年6月2日

数据运营36计(八):断点回归(RDD)评估产品设计效果

推广到全国是不是结果依然稳健适用,推广到全世界呢?因为断点回归只能做到局部(断点附近)随机,它能准确推断出来的也就是这断点附近人群的政策效果。要把局部政策效果外推,将非常困难。2.
2020年5月22日

数据分析36计(七):营销增益模型(uplift model)如何识别营销敏感用户群,Python实现

目前关于数据分析系列文章已更新到第7篇,其中5篇文章都是关于用户行为分析的内容。文章已收到【木东居士】和【俊红的数据分析之路】等公众号中数据分析大佬们的认可和支持。很多朋友在后台问我写的这块内容有什么资料可以系统学习,我的回答是,目前还没有找到这类书。至少还没找到将方法、案例和代码一起复现的资料。(可能有,只是我比较笨拙没找到)。所以我决定自己将零零散散看到的方法和数据拼凑成一个完整的学习过程。并且在第7章及以后开始使用公众号的知识付费功能,连续每章都支持的朋友在更完36章后,会在最后将付费的金额(扣除微信收的手续费)全部返回给这类付费的读者。感谢支持!!!数据分析36计(一):生存分析与互联网用户行为如何联系起来数据分析36计(二):用合成控制法判断运营方案策略实施效果数据分析36计(三):熵权法如何确定指标权重构建商业评价体系数据分析36计(四):互联网广告渠道效果归因分析之Shapley
2020年5月8日

数据运营36计(六):BG/NBD概率模型预测用户生命周期LTV,Python实现

{}".format(b))计算得到r=0.243,α=4.414,a=0.793,b=2.426.用户总交易次数预测接下来通过使用上面的四个参数建立预测模型,即求解交易次数的期望E(x)。2F1
2020年4月20日

数据运营36计(五):马尔可夫链对营销渠道归因建模,R语言实现

0.45如果要弄清楚渠道C1在用户转化路径中的贡献,使用移除效应原则。即如果想要在用户路径中找到某个渠道的贡献,可以通过删除该渠道并查看在没有该渠道的情况下发生了多少次转化。P(去除C1后的转换)=
2020年4月17日

数据运营36计(四):互联网广告渠道归因分析之Sharply Value

可以是B+C,即第三投放渠道A计算A的贡献度时,S集合共有5种可能性。我们要分别计算着5种情况下的边际收益(我们需要注意到的是,
2020年4月16日

数据运营36计(三):熵权法如何确定指标权重构建评价体系

数据标准化第二步:求各指标的信息熵表2
2020年4月15日

数据运营36计(二):如何用合成控制法判断策略实施效果

Method)(附PPT免费公开)视频资料:合成控制法视频资源(一)系列持续更新:数据运营36计(一):生存分析与用户行为如何联系起来点击“在看”可收藏随时查看↘↘↘
2020年4月12日

数据运营36计(一):生存分析与用户行为如何联系起来

coef/se(coef);有统计量必有其对应的假设检验的显著性P值,其说明coef是否与0有统计学意义上的显著差别。以性别变量举例,coef值小于0说明HR值小于1,而这里的Cox模型是group
2020年4月7日

用统计学解释一次核酸检查为阳性但患病的概率不到10%

如何判断和确诊是否感染新型冠状病毒肺炎?此前曾有患者在诊断中经历三次、四次甚至更多次样本检测才能发现核酸阳性进而确诊。而治愈出院的标准是,体温正常3天、呼吸道症状改善,在连续两次核酸检测且两次采样间隔24小时的情况下,两次阴性。在诊断过程中,连续两次检测是为了避免操作可能出现的一些失误,比如采样样本不好或者是“假阴性”。那么这里从统计学的角度计算,为何需要复查两次才能确诊患病。条件概率和全概率这里先介绍一下条件概率,描述的是事件
2020年2月23日

哈佛大学数据模型验证:温暖湿润的天气不会使新冠肺炎的减少

回归模型的拟合结果表明,绝对湿度和绝对温度与中国和其他受影响国家各省的COVID-19的指数增长有关(见下表)。绝对湿度和绝对温度与生殖数分别呈正相关和轻微负相关。结论
2020年2月20日

数据如何驱动C端产品增长

在产品上线后的后续优化中,如何通过数据驱动C端产品用户增长,如何通过数据去挖掘出真正能引导产品增长的新功能呢?这种需求一是直接统计用户的问题反馈,收集通用的功能需求;二是主动从用户行为路径和转化漏斗中去挖掘用户无意识但能激发用户感知并引导用户增长的需求。一、产品迭代产品运营中需要关注产品功能转化率,即拉宽用户路径中的漏斗结构或减少链路来达到高付费率,比如通过AB实验,电商产品可以优化商品详情页的页面布局,找出用户支付转化率最高的一个方案,在不影响用户体验的情况下,用持续不断的小范围实验和迭代,获得更高的交易额和支付转化。AB实验是数据驱动产品运营的工具,通过实验结果证明产品迭代版本的优化效果显著可保证产品事前控制的安全性,避免无效迭代对用户的利益损害和公司资源的浪费。Google
2019年11月21日

北上广数据分析师需求真的那么香吗?

长按上图,弹出“识别二维码”后关注老板好
2019年11月20日

从双十一医药健康的消费趋势,看大健康行业何去何从

先简单地看一组数据:2019年天猫双11全球狂欢节成交额最终定格在2684亿元,再度刷新纪录;swisse、汤臣倍健、博士伦、燕之屋、小仙炖等医药保健品牌先后跻身天猫双11成交额亿元俱乐部;京东健康医药部分的双11成交额为日均的16倍;美团点评双11医学美容同比增长275%,消费医疗同步增长839%;从动脉网搜集的部分数据可以看出,今天双十一健康商品和医疗服务的在线销售额较之以往不断攀高,特别是健康服务类项目的火爆,似乎在预示着健康类电商的趋势正由以往标准化的医药保健品,转向为看似非标的健康服务类。或许,这个趋势会成为大健康行业的另一个增长和爆发点。除了这个启发点外,大健康行业将继续何去何从呢?这次我们就从产业现状和巨头玩家的业务布局中看能否找到一些端倪。大健康行业的现状健康产业是世界上增长最快的产业之一,与发达国家相比我国健康产业仍处于创业阶段。在发达国家,比重超过15%,而我国健康产业仅占国民生产总值的4%-5%,发展空间巨大。目前我国的健康产业以平均每年近17%的增长速度快速增长,预计到2020年,可达到10万亿元的市场规模。然而,行业目前较为分散,CR5仅有34%,市场仍有非常大的发展空间。拿美国为例进行对比,美国的大健康产业各细分方向的发展都比较均衡,而我国目前95%都是医疗服务和医疗药品,此外,我国在健康管理服务方面几乎还没有成型的商业模式发展起来,而美国的健康管理服务+长期护理服务已经占比20%了。这种差距也是可以理解的,毕竟经济好了,才有强烈的诉求想要活得更健康。在消费升级的背景下,大健康产业在我国还是一片蓝海。巨头纷纷入场,一方面促进了健康认知教育,另一方面也在切切实实地解决用户的健康需求,在探索的过程中,头部玩家都是怎么布局的呢?管中窥豹,或许能给后入者一些启示,巨头玩家们的现状还是先看一组数据和概要:中国互联网医疗第一股平安好医生(01833.HK)的2019年中期财报显示其上半年总收入人民币22.7亿元,同比增长102.4%。净亏损为人民币2.74亿元,较2018年上半年的净亏损人民币4.44亿元减亏38.4%。阿里健康(00241.HK)2019年一季度财报显示其一季度收入人民币50.96亿元,毛利人民币13.31亿元,同比分别增长108.6%和103.9%;经调整后利润净额,则达到人民币1.22亿元。2019年5月,京东宣布成立“京东健康”子集团,整合了京东旗下医药零售、医药批发、互联网医疗、健康城市四个业务版块,并且获得了京东、CPEChina
2019年11月18日

用Power BI了解站在猪年风口上的猪有多金贵

最近秋招末季,今天牧原股份也因为应届生招聘的消息上了微博的热搜,原因是牧原股份针对知名高校开出了不菲的月薪。校招公告显示,牧原股份兼有科技研发、生猪育种、种猪繁育等,发起精英管培生引进计划,开出的薪水分为几档:本科20000元/月,硕士22000元/月,博士24000元/月。牧原股份的股价也从年初的28.7元涨到95.68元,涨幅达233.4%。11月7日,福布斯中国富豪榜出炉,牧原股份秦英林家族排名第九,财富值1173.8亿。今年猪年站在风口上的猪价格节节高升,加上年底春节对猪肉的需求,预估猪肉价格还将继续上涨。未来消费者对肉类的需求会转向其他禽类,最为明显的为鸡肉价格的上涨,而牛羊肉本身因为价格较高,可替代性略差,国内肉类消费结构将会变化。接下来用Power
2019年11月10日

漫威电影宇宙观影指南,口碑票房最佳都是谁

美漫迷,尤其是漫威迷这两天一定很激动吧!!复联四定档4.24,比北美都还要提前两天上映,全球最早!!小编朋友圈有人激动地熬夜又补了一遍复联三,回顾一下剧情。漫威电影宇宙自2008年《钢铁侠》上映以来,已经过了11年了,也算是陪着大家长大了。11年来,漫威电影宇宙已上映21部电影,大家应该各自有偏好的电影,不过今天,小编抛开个人偏好,可视化一下大众的最爱。话不多说,开干!!!到目前为止,连上正在上映的《惊奇队长》,漫威电影宇宙共上映21部,包括三部钢铁侠、三部美队、三部雷神、三部妇联、两部蚁人、两部银护、一部绿巨人、蜘蛛侠、奇异博士、黑豹和惊奇队长。漫威电影宇宙共分为三阶段,第一阶段:2008年-2012年;第二阶段:2013年-2015年;第三阶段:2015年-今。从上图可知,漫威几乎保持着每年2-3部的节奏,除2009年以外,从未断更。这种不间断出现在大屏幕上的做法,让影迷从未忘记漫威的存在,一直保持住了影迷的注意力。不过,2009年断更可能和当时无敌浩克票房口碑均失利有关吧。电影的成功与否跟很多因素都有关系,其中导演则是非常关键的一环。小编将21部导演做了个汇总,如下图:执导美队1、美队2和妇联3的罗素兄弟成为执导漫威宇宙电影最多的人,其次是两部蚁人的导演佩顿、两部银护的导演滚导(古恩)和钢铁侠1和2的导演乔恩。电影宇宙第三阶段的结束篇妇联4的导演仍旧是罗素兄弟,将继续保持第一位置。而滚导前段时间因为“不恰当”发言被迪士尼从银护3开除,不过最近又有小道消息传又被找回来了,如果消息为真,那么滚导可能成为第二。说完导演,再看看演员。由于豆瓣给的主演名单连一些配角也在里面,所以小编仅取前4名作为电影主演。大家要不要猜一下主演电影数目和参演数目最多分别是谁?主演数目最多的是很多人入坑的钢铁侠扮演者小罗伯特.唐尼。妮妮绝对是漫威电影系列的灵魂人物,美队更称他是电影系列的教父。漫威和妮妮可以说是互相成就,当初妮妮还在和毒品作斗争,漫威也没钱请大牌。现在妮妮在电影主演名单上绝对的C位,永远是演员表的第一位。其次是美队的演员Chris(EC)和雷神演员Chris(锤哥),寡姐随后(寡姐要有个人电影了,开心)。从参演电影数目上看,EC最多,其次是妮妮和神盾局局长(塞缪尔·杰克逊
2019年4月1日

数据解读星巴克“猫爪杯”如何挠你的心

嘛呀?猫爪杯呀!本来上周朋友圈就有朋友感叹猫爪杯的火爆,但是今天看到它的价格,我开始好奇它到底能长什么样能被炒到1314块,起初以为1314只是黄牛的价格,在小红书平台上的商城一搜,好吧,1088都已经没货了。那我们就顺势通过看看这款猫爪杯数据,探索下星巴克周边产品的火爆情况。这次的分析中放弃python和R,不用写代码网上的搜索数据也能看出很多故事,从百度指数来看,猫爪杯的搜索量暴增是刚好从2月26日,星巴克首次开售猫爪杯的日子。而搜索量也呈现递增趋势。从搜索猫爪杯的用户画像来看,广东凭借强大的网民基数霸占榜首,而盛产网红的大城市上海、北京等地排名也靠前。从年龄分布来看,也是合理的30-39岁区间。出乎意料的是,男女比例竟然相差不大。你爱我究竟有多深?星巴克的杯子一直以来都深受杯子收藏爱好者的喜欢,Fredorange.com网站是一个奥地利星巴克杯收藏家创建的星巴克爱好者社区,方便星巴克控们分享有关星巴克杯的信息,同时也可以在网站上进行交易。根据网站记录,星巴克迄今为止共发行了7069款马克杯,而来自美国的一个骨灰级玩家收集了4252款,而从全球星巴克杯爱好者来看,德国的数量仅次于美国。这次的爆红是否是偶然?从前8年的搜索指数来看,星巴克杯子这个关键词在节假日的时候会出现一周的涨幅,而樱花杯作为星巴克最受欢迎的系列之一,在每年3月初的前后,星巴克樱花杯会出现明显的波动,这次的猫爪杯,星巴克在往日的成功营销经验上,沿袭了3月初前后的发售时间、限量发售、樱花元素外,还关注到了今年新出现的“萌”经济,猫狗元素也添加到今年的设计中,吸引了不少宠物萌主们的喜爱。据《2018年中国宠物行业报告》指出,中国宠物主2018年花在宠物身上的钱年均为3969元。而与宠物狗花费相比,养猫成本更低。所以猫在宠物市场更受大城市独居年轻人的喜欢,而这类年轻人也是星巴克萌杯的目标用户群。除了马克杯,今年也是星巴克推出假日限量纸杯的第
2019年3月2日

R+ECharts2Shiny实现web动态交互式可视化数据(中)

点击蓝字关注我们前言上篇文章中我们谈到R语言中shiny包用作企业业务数据轻量级web开发的好处,R+ECharts2Shiny实现web动态交互式可视化数据(上),在这篇文章中我们推荐下在Shiny
2019年2月17日

R+ECharts2Shiny实现web动态交互式可视化数据(上)

前言之前过年的时候有好友询问,没有太多web和开发的基础,但是想在掌握R语言的基础上,实现web动态交互式可视化公司的业务数据,百度的Echarts,它最初是为了满足企业商业体系里各种业务系统(如凤巢、广告管家等等)的报表需求,后来发展成为一个纯Javascript的商业级数据图表库。但是对于普通没有开发经验的小白,无法完全能运用该库到自己的web项目中,那么R语言的ECharts2Shiny就可以轻松实现以上需求。在学习ECharts2Shiny前,我们先来了解下如何用R
2019年2月12日

一步一步从人工神经网络开始你的深度学习

神经网络分为3种类型:输入层:训练观察通过这些神经元输入隐藏层:这些是输入和输出之间的中间层,有助于神经网络学习数据中涉及的复杂关系。输出图层:最终输出从前两个图层中提取。
2019年2月10日

100行python代码,轻松完成贪吃蛇小游戏

大家小时候都玩过贪吃蛇吧?小编小时候可喜欢拿爸妈的手机玩了,厉害着呢!今天,小编就来用100行代码实现一个简易版的贪吃蛇。在网上,贪吃蛇教程蛮多的,但要安装蛮多库的,而且也不够清晰,今天的代码比较短,而且理解起来或者说你更改起来要简单一些。最终会实现效果如下:基本准备首先,我们需要安装pygame库,小编通过pip
2019年1月31日

2018最后一天,我分析了自己的朋友圈好友

今天是2018的最后一天,小编和往常一样,拿起手机刷刷朋友圈,看看微博。突然瞄到了一篇公众号提到了‘itchat’。itchat是一个开源的微信个人号接口,使用它调用微信变得非常简单。本文就基于itchat,做个简单的朋友圈好友数据分析。希望明年可以认识更多的好朋友。这个库非常神奇,爬取个人微信好友相关信息,一共只需两行代码。如下:1import
2018年12月31日

圣诞节!教你用python画棵圣诞树

'|')效果:哈哈哈哈,总有一种骗了大家的感觉。其实本文是想介绍turtle库来画圣诞树。方法一:
2018年12月24日

《全职高手》B站近十万评论,全职为何如此吸引人

大家看过《全职高手》的动漫吗?根据同名小说改编的,是一个非常大的IP。作为一个没有玩过任何网游的人,都看的热血沸腾。豆瓣评分在8.2,还算不错。不过今天我们爬取的不是豆瓣评论,而是B站评论,因为它是在B站发布的,评论更为集中一些。其实是想爬弹幕,但是每一集弹幕最多显示3000条,遂放弃。B站评论按照每集显示,我们这里示范性只爬取了第一集的评论,显示的261930条评论,共4790页,但是这些评论数目加上了楼层回复的,所以按照楼层爬取,小编共获得了95762条评论。右键找到相应的json文件,点击preview,便能找到我们所需内容。这个URL为:https://api.bilibili.com/x/v2/reply?callback=jQuery17203964473758122842_1544603719132&jsonp=jsonp&pn=1&type=1&oid=9659814&sort=0&_=1544603720769但是别高兴的太早,直接request这个地址是会报错了,于是重新分析该地址这里内容和URL是对应的,但是其实真正有用的只有三个,pn代表页码,oid代表视频编号,还有type和sort。于是删掉多余的信息,得到最终的URL:https://api.bilibili.com/x/v2/reply?pn='1&type=1&oid=9659814&sort=0接下来就非常容易了,写个for循环,存储每一页所需数据。注意爬取下来的楼不一定是连续的,原因是一些楼层评论涉黄涉暴被删除了。那么接下来就简单分析一下爬取下来的数据吧。首先是时间线的评论数目,如下图,因为第一集上线时间为2017年4月7日,距今时间已经超过1年半了,因此,在虽时间增长,评论数目也在逐渐下降。于是我们只看前一个月的数据。上线第一天评论数目就超过两万,然后第二天直线下降,随时间增加越来越少,但是在一周后会小幅度增长,应该是有新的一集更新的缘故吧。任何看看性别分布,如下图:说实话,小编有点意外,这类讲网游的动漫,小编还以为是男生更多呢,结果女生不仅多余男生,还超的有点多呢。在B站,一共有7个等级,如下,大概四级以上才算活跃用户。在评论《全职高手》的用户里面,B站活跃用户占比相当大。为了探索用户性别和等级的关系,于是做了下图:等级-性别分布和本身用户性别比看起来似乎没有区别,于是,又做了堆叠图:看起来,性别和等级果然没有关系。O(∩_∩)O,那么用户观看《全职高手》通常是在什么时间段呢?用户观看时段最多的是11点-13点,因为全职是在这个时间段更新,大家一般都在更新后立马看。然后在13点之后不断下降,直到16点慢慢增加直到0点。由此可见,大家一般在上午不看,但是在下午和晚上更喜欢观影。时间段和等级之间的关系如上图,不论是什么等级,拟合情况都和总体观影时段能匹配上的。针对于评论,小编用SnowNLP简单的分析了其情感,结果如下图:按照情感得分来看,中立和超级喜欢最多,其余得分分布非常均匀。这和《全职高手》口碑是相符合的,因为对很多人来说,这部剧在国产动漫里面已经是相当不错的,但碍于小说有1700+章,想在短短的20分钟呈现出来,那么必然要进行大幅度删减,于是对于角色的刻画,会存在较大的不同,这也造成了很多人不喜欢它,或考虑国内动漫发展情况,给予中等评价。但是对于另一些人来说,比如小编,这部剧在剧情、人物等方面还是非常吸引人的,于是会给予非常高的评价。然后基于评价,用jieba分词,做了一个词云图:全职、荣耀、君莫笑、叶修、叶神等剧情里面的重要事件、人物都是评论常提及的词。啊啊啊也出现的非常多,是因为大部分人在上线后都会发巨多的啊表示激动。如果分析用户的个人简介和昵称,还会发现这里面有许多死忠粉,在昵称和简介里面会采用和《全职高手》相关信息。据说《全职高手》第二季在明年出,小编都快等不及了,于是,再看一遍过过瘾吧。代码在:https://github.com/summerheday/quanzhigaoshouGitHub上,大家看完记得给颗小星星啊。
2018年12月12日

自然语言处理之TF-IDF算法

TF-IDF算法(词频-逆文档频次算法)是一种基于统计的计算方法,常用于评估在一个文档集中一个词对某份文档的重要程度,可以作为文档关键词提取的一种算法。简单地说,就是一个词对文档越重要,越可能是文档的关键词。
2018年12月4日

爬取点评成都数据,只为告诉你哪家火锅最好吃

冬天到了,天气越来越冷,小编起床越来越困难了,每一天都想吃辣辣的火锅。成都到处都是火锅店,有名的店,稍微去晚一点,排队都要排好久,没听说的店,又怕味道不好。那么如何选择火锅店呢?最简单的肯定是在美团。大众点评上找一找啊。所以,本文就从大众点评上爬取了成都的火锅数据,来进行了分析。
2018年11月28日

爬取拉勾网数据分析招聘信息,可视化告诉你需要关注些什么

想学习数据分析,但不知道从哪里下手,那么直接看看公司招人的条件,总结一下,你就知道学习什么了。基于此,小编爬取了拉勾网上面关于数据分析的招聘信息,并存储到MySQL数据库,最后进行数据分析。1、爬虫爬虫部分非常简单,对网页稍加分析便能完成。首先打开拉勾网,搜索数据分析,然后将一切筛选条件勾选不限,工作地点选择全国。然后右键network然后点击xhr,我们找到了position开头的文件,打开观察其header信息,包括URL等。往下拉,尤其注意Form
2018年11月21日

Python爬取西刺代理IP并验证

胡萝卜酱最近在爬取知乎用户数据,然而爬取不了一会,IP就被封了,所以去爬取了西刺代理IP来使用。这里爬取的是西刺国内高匿IP。我们需要的就是这一串数字。分析源码后,发现数据非常的明了,都是存在表格里面,一行一行的展示,因此,我们只需要把这些数据存下来即可。为了防止IP被封,我们通过设置获取网页睡眠时间和随机选取header的方法。同时,我们通过百度来验证这些IP是否可用,可用的话,就存起来。
2018年11月15日

集成学习概述:三个臭皮匠顶一个诸葛亮

胡萝卜酱前段时间开组会,汇报了集成学习。集成学习就是将多个效果不是特别好的个体学习器集成起来,然后可以获得比强学习器还好的结果,通俗讲就是三个臭皮匠顶一个诸葛亮啊。这里就把PPT内容发布出来吧,PPT的内容主要是根据周志华的西瓜书,并且在网上找到了一些相关的算法图。为什么胡萝卜酱不写成文章呢?一个字,懒!这里推荐一个讲集成学习的博文:https://blog.csdn.net/ruiyiin/article/details/77114072这篇博文讲的非常详细,也有相关延伸阅读的链接,推荐!!!
2018年11月13日

机器学习大科普:回归、分类与聚类

提及机器学习算法,首先会想到哪些呢?决策树、KNN、SVM、随机森林、逻辑回归……以上这些算法在之前的文章推送里都或多或少有提及,然鹅,你萌知道怎么对他们分类吗?机器学习算法的分类,其实也有好几种分类方式,比如有监督/无监督、生成/判别等等。而本文,胡萝卜酱将机器学习任务的角度来进行分类,也就是回归、分类和聚类。本文仅作为简单的科普,不涉及推理等。1、回归回归,Regression,是一种对数值型连续随机变量进行预测和建模的监督学习算法。最常用的回归分为两类:线性回归、非线性回归。1.1
2018年11月8日

新闻网站数据可视化分析预测“美国中选”

根据美国宪法,明天将是(2018年11月6日)美国中期选举投票的日子,这也称为美国国会选举,投票将改选众议院、部分州长和部分参议员,这也是民众对特朗普当选总统以来政绩的直接评分。本来我之前对美国政治是一无所知,但是前几个月因为“特朗普”的关税政策,也着实让中国股市大盘震荡,个人也受到了一些损失,所以还是吃瓜一下中期选举的局势,看看数据分析是否能预估准确的结果。中期选举的实质是民主党和共和党争夺对国会的控制权,根据美国1787年宪法,国会是国家的最高立法机构,由参议院和众议院组成。两院议员都由各州选民直接选举产生。参议员每州选2名,50个州共100名,任期6年,每两年改选1/3的席位。众议员按各州人口比例选出,大约50万人选一名,共435名,任期2年,届满后全部改选。产生“分裂国会”为大概率事件根据民调网站predictit的数据,押注共和党与民主党掌控参议院的价格为86美分:17美分,而众议院预测情况则反转,押注民主党掌控众议院的赌率为67美分,押注共和党的仅为36美分。参议院据统计网站FiveThirtyEight到11月4日的最新预估,参议院部分,共和党有83.7%的机率可保住多数优势。在参议院投票选举中,共和党保留42个席位,民主党保留23个席位,最后将有35个席位改选,而这35个席位截止到11月4日的投票分布情况在图中也可以看出。参议院由每个州(50个州)选取两名议员,从就任美国总统到2018年10月20日,特朗普已经在全美18个州举行过34场“让美国再次伟大”的大型集会活动。其中,有的是为自己的连任造势,有的是为参加今年中期选举的共和党候选人拉票。相比之下,奥巴马同期举行过10场类似的竞选活动。下图每个州的预投票可视化情况。众议院在本次中期选举中,众议院中435个席位将全部换选,要成为众议院多数党,需要至少赢得218个议席。根据真清晰政治网(RealClearPolitics)到10月31日的分析,目前众议院部分,共和党可稳拿199席、民主党206席,30席胶着状态。据统计网站FiveThirtyEight到11月4日的最新预估,众议院部分,民主党有86.0%的机率可保住多数优势。美国民众不希望同一政党同时掌控白宫和国会参众两院。如果最终的结果为上面的大概率事件,那么特朗普的政策实施将受到阻力。特朗普受欢迎程度比较在之前的州预选阶段,共和党方面的“特朗普效应”就不断凸显,即如何有效支持或反对特朗普,将成为党内竞选人争夺选民成败关键因素之一。在共和党预选中,特朗普支持谁,谁就赢;反对谁,谁就输。特朗普批评者将遭遇特朗普及共和党选民“惩罚”。分析人士认为,共和党已经整体“特朗普化”。本次中选,也是美国民众对特朗普就任总统以来政绩的直接评分,特朗普在任的654天,目前美国民众对特朗普的支持情况为支持占比42.2%。特朗普和历届总统的净支持度比较:总结:本次的可视化图主要来源于fivethirtyeight网站,该网站因通过棒球比赛数据成功预测出奥巴马将赢得美国总统大选而成为人们关注的焦点,该数据新闻网站依靠数据运用数字和统计能力,在不牺牲准确性和严谨性的前提下,来驱动新闻的吸引力和生动性。为其他数据可视化产品提供借鉴。参考:1、https://finance.sina.com.cn/stock/usstock/c/2018-10-24/doc-ifxeuwws7703809.shtml2、https://projects.fivethirtyeight.com/2018-midterm-election-forecast/house/3、https://baijiahao.baidu.com/s?id=1603244916066333969&wfr=spider&for=pc
2018年11月5日

“王牌冤家”:评论爬虫及情感分析(SnowNLP)

李荣浩上周发的《耳朵》专辑,你萌听了吗?小编真的超级喜欢“王牌冤家”这首歌,在新说唱听了李老师的那几句就一直念念不忘,这一周可是一直单曲循环中。恰好前两天看了SnowNLP的一点东西,所以,这一次基于这首歌的评论,来做个非常easy的情感分析。文本信息是选取的网易云音乐下的评论,所以本文是爬虫+分析。爬虫在网易云音乐上万首hiphop歌曲解析rapper们的最爱(爬虫篇)一文中,我们基于selenium爬取了歌单,歌曲和歌词的信息,本来在评论的爬取也可以选择selenium的方式,但是,小编上网一搜,就找到评论的API,这可就非常简单了。Step
2018年10月24日

过去50年在美国发生的枪击案——R语言数据分析

文章来源知乎专栏:李小二姜的R语言可视化和数据挖掘专栏拉斯维加斯以赌城、度假村、购物和娱乐中心闻名世界。但一年前的10月1日,这里还成为了美国由一个人造成的最大的枪击事件的发生地。64岁的斯蒂芬•帕多克从一个酒店的高层房间的窗户向一个户外音乐会发射了1000多发步枪子弹,造成大约60死亡,527人受伤。他在警察逼近时自杀。所以今天分享一篇关于美国枪击事件的数据分析。数据集数据集来源于kaggle网站,该数据描述的是过去50年来在美国发生的枪击案的具体内容,由于2017年在拉斯维加斯发生的恶性枪击案事件,使得这次案件的死亡人数比2015和2016年死亡人数之和还要多,可谓是触目惊心。S#
2018年10月4日

6000+个景点数据可视化,国庆出游避免拥挤,这一篇就够了

马上就要到来的国庆7天长假,就问你们激不激动!可是,出门游玩,走哪里都是人,人,人,人……。你的脑海里是否出现了以下画面:为了方便大家的出游选择,小编爬取了去哪儿网上面的6000多个景点数据,包含景点评级、热度、销量等等数据,汇总成这篇出游参考指南。爬虫爬虫继续用的是胡萝卜酱最近的心头爱selenium,用法可以参考爬虫神器selenium之猫眼电影榜单实例。打开去哪儿网站,右键,分析网页。我们需要的数据非常的清晰:话不多说,只要定位到自己想要的信息,那么代码非常简单。
2018年9月29日

R语言实现EDA + HeatMap

element_blank())ipad和books???为毛不直接用ibooks呢???后面我们联合几个数据集进行联合查询,找寻不同变量之间和捐款金额的差异热图。teacher_amount%
2018年9月26日

用R语言分析与预测员工离职

在实验室搬砖之后,继续我们的kaggle数据分析之旅,这次数据也是答主在kaggle上选择的比较火的一份关于人力资源的数据集,关注点在于员工离职的分析和预测,依然还是从数据读取,数据预处理,EDA和机器学习建模这几个部分开始进行,最后使用集成学习中比较火的random
2018年9月25日

爬虫神器selenium之猫眼电影榜单实例

driver.find_element_by_class_name("board-wrapper").find_elements_by_tag_name("dd")1314
2018年9月21日

天池入门赛—100行代码预测O2O优惠券使用情况

赛题背景以优惠券盘活老用户或吸引新客户进店消费是O2O的一种重要营销方式。然而随机投放的优惠券对多数用户造成无意义的干扰。对商家而言,滥发的优惠券可能降低品牌声誉,同时难以估算营销成本。
2018年9月11日

ML/DL---梯度下降算法的快速理解

Descent)Mini-batch梯度下降综合了batch梯度下降与stochastic梯度下降,在每次更新速度与更新次数中间取得一个平衡,其每次更新从训练集中随机选择b,b
2018年9月8日

LeetCode上的8个SQL问题,测测你会几个

‘cancelled_by_client’)。+----+-----------+-----------+---------+--------------------+----------+
2018年9月6日

算法告诉你,如何推荐一部电影

上文,胡萝卜酱给大家讲述了协同过滤算法的原理,那么就来进行一次实战吧。数据集来源于https://grouplens.org/datasets/movielens/这里胡萝卜酱下载的是小数据集,当然你也可以下载大数据集来进行计算。数据探索数据解压会有四张表,这里小编只用到了“movies”和“ratings”两个表,同时通过movieId将两张表合成为一个数据框。1import
2018年8月28日

三分钟了解协同过滤算法

推荐算法最早在1992年就提出来了,因互联网的爆发,越来越多的数据可用,推荐算法就这么火起来了。协同过滤(Collaboration
2018年8月27日

神马三押四押 给你来上一打

大家七夕过的愉快吗?胡萝卜酱来更hiphop歌曲最后一部分了,关于押韵的分析。看今年的新说唱,发现那吾克热他们简直是押韵狂魔啊,怎么能想到那么多可以押韵的词啊?真是令语文一向不好的小编好生羡慕啊。大家还记得可视化篇里面我们已经将中英文分开了吗?鉴于小编能力有限,无法去分析英文的押韵,所以本文只分析了中文部分的。xpinyin的应用要想押韵,那么就必须提及我们的拼音呢。如何把汉字转化为拼音呢,那就必须用上xpinyin了。你可以通过pip直接安装,并且它的使用非常的简单,我们通过一个小小的例子来认识一下吧。
2018年8月19日

网易云音乐上万首hiphop歌曲解析rapper们的最爱(可视化篇)

胡萝卜酱首先道个歉,看见有人告诉我爬虫篇代码有问题,小编赶紧去检查,才发现把代码放错了,真是罪该万死,小编去跪键盘了。错误的代码是爬歌词那里,首先是循环缩进出现问题,其次是变量名字写错,正确代码如下:#获取歌词import
2018年8月16日

网易云音乐上万首hiphop歌曲解析rapper们的最爱(爬虫篇)

song_name.append(data_song[j].find_element_by_css_selector("b").get_attribute('title'))
2018年8月12日