突发!员工跳楼!只拿低保工资!央企设计院集体罢工!

突发!北京某院集体罢工!

淄博向东,惠泊向西:在人民与人民币之间,惠泊停车选择了人民币

【少儿禁】马建《亮出你的舌苔或空空荡荡》

10部适合女性看的唯美情色电影

自由微信安卓APP发布,立即下载! | 提交文章网址

人人都是数据分析师

人人都是数据分析师

点击上方"蓝字"关注我们吧!大家好,我是ZZ,欢迎大家来到我的公众号:人人都是数据分析师。之所以起这个名字是因为在我看来,数据分析不仅仅是一个职位或者专业,而且是互联网时代一个人人必备的基本技能。创建这个公众号主要有三个目的:一是将自己多年来对数据分析相关知识的一点理解进行总结,并且以通俗易懂的语言呈现给读者,以便大家学习。二是结合自身工作经历,对未来想从事数据分析的同学提供一个成本最小的路径,以便大家及时的找准方向并为之努力。三是希望通过这个专栏,吸引更多的同道中人,或者说,寻找到和我一样有趣的灵魂。这篇文章的主要目的就是介绍整个公众号的框架,以及框架内会包含哪些内容,即是一份数据分析总纲。以下为总纲的逻辑框架。1
2021年4月18日

数据分析面试必考—SQL快速入门宝典

--纯数排序:1、2、3、4、5(4)其他窗口函数还有一些输出窗口内第一个值和最后一个值的操作,虽然ZZ感觉这个挺多余的,但是还是列一下,省的大家以为我不知道似的。#
2021年4月11日

数据分析(2)|数据分析师应该如何构建指标体系

点击上方"蓝字"关注我们吧!1什么是数据指标在互联网行业中,对指标的一般定义为:指标,是反映某种事物或现象,描述在一定时间和条件下的规模、程度、比例、结构等概念,通常由指标名称和指标数值组成。2为什么要搭建数据指标体系2.1
2021年4月10日

统计学(5)|AB测试—方差分析与卡方检验

A、B),另一个为维度为次日是否访问。在这种情况下,两种检验方式在数学上是等价的。因此计算多个样本的比例类指标显著性时我们可以使用卡方检验。2.1
2021年4月7日

统计学(4)|AB测试—实验流程

点击上方"蓝字"关注我们吧!在之前的两篇文章里,我们详细介绍了AB测试的理论基础,以及如何科学全面地对AB测试的结果进行分析。有了这些基础之后,我们来看一下实际工作如何进行AB测试。1AB测试的流程工作中进行完整的AB测试流程包括以下几个步骤:分析现状:针对当前产品情况,根据业务数据,提出优化方案(一般由数据分析师和产品经理确定)。确定评估指标:确定衡量优化效果的指标(如:CTR,停留时长等)。设计与开发:确定优化版本的设计原型,并完成技术实现(通常与数据分析师无关)。分配流量:确定实验分层分流方案,以及实验需要切分多少流量,一般根据最小样本量确定。确定实验有效天数:实验的有效天数即为实验进行多少天能达到流量的最小样本量。采集并分析数据:提取实验数据,对实验结果进行分析。根据试验结果,确定是否推广到全量或者是调整之后继续实验。了解了整体的流程之后,我们对其中一些比较关键的地方做进一步的阐述。2分配流量通常由于流量有限,以及同时进行的AB实验量比较大,为了保证流量高效使用需要利用分层和分流的流量分配机制。根据不同的实验共享流量的情况下,不同的实验之间是否会产生干扰,将实验类型分为正交实验和互斥实验。2.1
2021年3月31日

统计学(3)|AB测试—实验结果分析

点击上方"蓝字"关注我们吧!在上一篇文章统计学(2)|A/B测试—理论基础中,我们理清了AB测试的理论基础——假设检验的思想,并且严格推导了为什么现在公司做AB测试基本全都使用统计量。这篇文章,我们来介绍一下如何对AB测试的实验结果进行分析。在进行结果分析之前,我们先简单回顾一下假设检验的相关知识。1假设检验1.1
2021年3月30日

统计学(2)|AB测试—理论基础

点击上方"蓝字"关注我们吧!ZZ之前承诺以A/B测试为案例,串联起统计学的理论,让理论直接落地于实践,搭建起统计学理论与工作实践的桥梁。所以,为了实现吹过的牛逼,这篇”A/B测试—理论基础“应运而生。现阶段,很多公司都在用A/B测试这一工具推进业务发展,特别是《增长黑客》系列图书的流行。但是遗憾的是,真正将A/B测试用明白的公司寥寥无几,其中对A/B测试有扎实理论基础的人更是稀缺。不知所以然,何谈灵活运用?所以熟读本篇精华之作,完全可作为数据分析师的一大杀手锏,无论是转行还是入行,先把本篇吃透就对了。下面我们进入正题,先来看看什么是A/B测试!1什么是A/B测试先看一下VWO对AB测试的解释:A/B
2021年3月29日

数据分析(1)|面试必考——产品日活(DAU)下降,该如何分析

从产品、运营、技术侧逐一排查,最终找到原因。以上分析框架不仅局限于DAU波动,对于数据异常类问题也可根据以上模型进行分析。
2021年3月27日

统计学(1)|白话统计学发展(含统计学必知必会)

点击上方"蓝字"关注我们吧!1引言《概率论》是一门理工科大学生必修课程,学统计学的同学们更是绕不开这门课程以及相关的高级课程,例如《高等数理统计》,《多元统计分析》等等。在学习这些课程的同时,大家是否感觉晦涩难懂,又或是感觉简单轻松但就是知识碎片,难以形成完成的逻辑框架?本文ZZ与大家一起白话统计学的发展历程,以符合常理的顺序描述这一神奇学科的进程,让大家知其然,并探其所以然。特别提示:本文不是科普文,不会出现一些纯理论的知识。本文是个人思考后输出的合乎逻辑的统计学发展历程,旨在为广大对统计学感兴趣的同学提供一个顺滑的学习路线和一个整体的逻辑框架。2何为统计?首先,对于统计的这个话题,需要明确我们在讨论什么?熟悉ZZ的知友知道,ZZ解释概念都是一个套路,就是顾名思义。顾名思义,统是总括,概括、计是计算,合在一起就是概括的计算。所以,统计是指对某个事件进行概括性的计算,以得出支撑我们结论的统计数据。那么,概括性的计算都包含什么呢?这个问题相信大多数同学都能说上均值,方差,最大值,最小值,中位数,分位数;甚至一些衍生的变异系数,协方差,偏度,散度等等,下面我们就从最简单的均值和方差说起,来带入这统计的世界。3统计的发展历程我们先用一张图片展示一下,统计学的发展历程,然后逐一叙述:1)很久很久以前,古代人们就掌握了计数的技术,主要用于记录食物的数量。但是随着人们智慧的增长,人们不再局限于计数,对于记录下来的数据,总有人会去探索一些有趣的事情。其中最简单的一种计算就是均值,计算一组数据的平均数来衡量这组数据的平均水平,是多么的自然而和谐。2)有了均值来衡量平均水平,那么人们自然会关注个体与平均水平的差异,这是人性使然。例如当你知道你所在行业的平均月工资是40k,你会立刻和自己比较,发现自己是4K,在质疑这个平均水平的同时,你会想到居然有同事76K?这个行业的工资水平可以差异这么大?那么差异到底有多大呢,我们如何衡量这个差异呢?方差应运而生,基于均值来衡量整体水平之间的差异程度。3)有了均值和方差,我们需要总结一下这时的成果;存在某个事件的一组记录数据,我们可以计算统计值——均值和方差来分别衡量这组数字的平均水平和差异程度。但是总是说一组数据不方便,这时我们需要定义一些名词:事件,整体和个体。其含义也无需多说。4)随着统计学继续发展,那么对于某个事件,我们使用类似均值,方差等等的指标来衡量这个事件某方面的水平。人们很快发现,我们之前定义的整体只是当前收集到全部数据,对于某个事件我们不可能穷尽搜集到它的所有数据,这所有的数据我们称之为总体。之前定义为整体的那部分数据称为这个总体下的一份样本。5)样本的数据表现并不稳定,但是在多次试验的情况下,事件的某种情况发生的频率趋于稳定,结合极限的概念,我们给总体中事件出现的频率一个定义:概率。进而为了理解某个事件的规律,我们希望穷尽事件所有可能的概率,因此我们需要知道总体数据大概以什么样的方式呈现。为了刻画总体的模样,分布又应运而生,即事件所有可能的概率分布。有了分布的概念,随着人们研究各种不同事件的分布形式,进化出0-1分布(伯努利分布)、二项分布,泊松分布,指数分布,正态分布等等,正态分布的发现是一个里程碑式的事件。6)对于总体这种充满玄学的东西,人们一般很难弄到,只能通过有限的一份或几份样本数据来研究总体的分布。样本我们可以很方便的计算频率,但是频率能估计出概率吗?伯努利说可以的,并提出了大数定律:样本够大,频率趋近概率,那么好,这个事能成。7)我们关注总体的分布,其实主要关注总体的一些统计特征,即前面提到的均值,方差,比例等等,自然而然我们研究样本的这些统计特征去刻画总体。我们称样本的这些统计特征为统计量,总体的统计特征就是参数;8)由于得到样本的过程(抽样)是一个随机过程,那个样本的统计量也是一个变量,区别于总体的参数是一个定量;研究变量我们还是要看它的分布,我们称这个分布为抽样分布。9)最开始就是研究最简单样本均值;我们自然会想不同分布的总体的样本的均值是什么分布呢?棣莫弗说,不用Battle了,是正态分布,经过了100多年的不断证明之后大家服了,命名为棣莫佛-拉普拉斯定理,还有一个别名:中心极限定理(概率论中首席定理)诞生。10)后来人们发现抽样数量的大小,样本均值的抽样分布会有一些差异,小样本是一个比正态分布有点差异的分布,我们称之为t分布,大样本下还是正态分布。进而分析样本方差的时候,我们又定义了卡方分布、F分布(样本方差可以转化为卡方分布)。11)研究到这里,我们已经可以通过样本的统计量来刻画总体参数了。当然这是从理论上严谨的推导的,另一种获取统计量的分布的方式是自助法,那是另辟蹊径,这里不详细叙述了。既然样本可以刻画总体的分布,那么人们应用这些理论,开始了假设检验的理论研究。12)在熟悉了以上这些理论的基础上,假设检验其实是一个很经典的数学思维:你说怎么滴就怎么滴(原假设);按照你认为的理论,事件会怎么发展呢(统计量的抽样分布)?实际中又是怎么样(统计量实际值-计算P值)?实际与假设是否一致(P值和置信水平)?依据以上步骤得出可信结论。13)统计学发展至此,已经覆盖大部分日常生活中的应用,ZZ叙述的这个发展过程,希望指引广大爱好的统计学的同僚更加顺滑的学习统计学知识。4统计学必知必会如果大家认可以上的统计学发展过程,这其中的必知必会就呼之欲出:均值、方差、最大值、最小值、中位数等统计值的概念;事件、总体、样本、个体的概念;频率、概率、分布等概念,了解常用分布,如二项分布、正态分布等的分布函数和它们的均值和方差、以及衍生的独立、联合分布和边缘分布等概念;大数定律、统计量、抽样分布的概念,了解常见的抽样分布,如卡方分布、t分布和F分布;中心极限定理及其应用假设检验。5小结以上统计学发展和必知必会覆盖大部分日常统计工作,也涉及了应用最广范的假设检验,但是本文旨在为学习统计学的同学提供一个指引,对于其中具体理论和实际应用并未多涉及。后续,ZZ将继续完善统计学的相关理论,并通过一篇A\B测试的理论篇,将以上知识串起来应用,希望关注的同学们不要错过这些精华。P.S.
2021年3月26日

数据分析师最爱的脚本语言--Python,你会了吗?

据各种专业和业余的统计,在机器学习领域,Python语言的热度逐年上升。作为一种计算机程序设计语言,以简洁,易读性被广泛选择。伴随着大数据,深度学习领域的迅速发展,Python作为实现这些方法的友好语言,其拥护者也急剧上升。然而,Python的远远不止于此,编写应用程序,创建游戏,设计算法等等都可以应用其实现。那么,如此强大的编程语言。你是否掌握了呢?本篇引入为以后的机器学习分享做基础,作为入门级教程,适合久闻Python其名,苦于无法找准门路的同学们。大佬们都说Python语言最简单,为何学习之路仍苦难重重?读过好多书籍,仍无法入门?那是因为对于无基础的同学,一门新的综合性的语言实在过于繁杂。而写书的Boss们长时间在编程界顶层,无法理解最底层的同学们可能在安装这一步都难以通过。对于初学者,往往一个简单的小Bug,足以劝退一颗热忱的心。有范君为了避免这种情况的出现,使入门过程更平滑。让同学们顺顺利利的入门Python。特意亲身试验以下全部过程,确保准确。作为机器学习系列分享的导引内容,不介绍Python语言的数据类型,语法等基础知识,直接对机器学习三个最基础的包:Numpy,Pandas,Sklearn
2019年7月10日

迅速入门二十一世纪必备技能包-R语言!

当今,数据成为工作生活中不可或缺的一个重要组成部分。无论作为一名专业的数据分析师,亦或是各行各业的从业人员,面对形形色色的数据,你需要掌握一门专门用于统计分析建模的数据分析软件。本次有范君推荐给大家一款热门的数据分析软件-R语言。相对于其他工具,R语言有其独特的优势:一、对于初次接触一种工具的同学们,往往因为难以入门而导致最终的放弃。然而,R语言入门容易,面向人群无门槛,无论你是专业人员还是业余小白,通过几行简单的命令,便可以建立模型,或是绘制精美图像。二、支持广泛,作为开源软件,其后备团队庞大。用于分析建模的独立程序包众多,并且帮助文档齐全。三、功能强大,作为一门编程语言,应用它可以做到编程可以实现的一切模块,并且它所具备的不同领域的安装包几乎可以满足你一切统计工作的需求。R语言的优势和重要性十分明显,那么,我们立刻回到R语言入门的正题。经常有同学问,我如何学好一门语言?为何,你苦苦亲手编写数月代码,孜孜不倦的学习从入门到精通秘籍,到最后,确直接跳到放弃那一步?那么有范君告诉你,很多时候,问题在于你是否学以致用!这里我们将学习一门语言分为两个步骤:学、用。“学”阶段,需明确学什么?学多长时间?学什么,其重点目标在于学习基础,成功入门,打开这扇门,你才可以自由的去选择实用的板块。本编文章,重点目标也是带读者入门,为接下来的学习做一个软件应用的基础。学习时间,唯快不破。学习之所以枯燥无味,没有某音或是某者荣耀吸引人。那是因为学习的反馈时间长,这个时间甚至可以长到你都看不到反馈。所以,越快越好,重点花费时间快速入门即可。这个问题就很严重了,谁不愿意很快的学习完呢?可现实不允许啊!这就需要找到有经验的人带着你快速入门,哪有什么岁月静好啊,总有人已经负重前行了。同学们问,这样的人去哪里找?咳咳,左上角来一波关注哈。“用”阶段,需结合实际的问题,项目。进行交互产出。针对实际遇到的问题,千方百计寻找帮助解决掉,然后,等待着就是不断的进步,逐渐地精通,否则继续投入时间去逐一学习,等待着很可能就是枯燥无味直至放弃。毕竟每一门语言,历史积累下来的财富那么多,如果逐一精通,其一精力不允许,其二真的没有必要。当然,后续本公众号也会不断地为读者分享机器学习的相关知识,再学习中顺便精通R语言。明确学习路线之后,我们正式开始学的第一步,入门。万事开头难,我们把一门语言的入门比喻成玩一个新的游戏,这样帮助同学们尽快入门,因为可能大部分同学入门一个游戏还是比较快速的。第一步:下载游戏:安装软件欲习此篇,必先安装。安装R语言的步骤十分简单。官网操作一波即可。首先进入R语言官网:https://www.r-project.org/。选择Download
2019年7月3日

问题没那么复杂之朴素的贝叶斯

对于分类,怎么可以少了贝叶斯学派的理论。万事万物概率看,且看且成长的人生哲理屡试不爽。试想当有人问你某件事是否会发生的时候,你闪动睿智的炯炯目光,轻扇白羽扇,回答到:有百分之八十的概率发生。这格调是不是比直接回答会发生提升了一大截(强行加戏)。所以,本篇我们一起来学习一下贝叶斯分类器的基础,朴素贝叶斯分类器。故事引入贝叶斯分类器朴素贝叶斯分类器处理问题的步骤处理技巧-平滑化举个例子模型进化-类别敏感问题小结分类模型综合比较截至现在,我们已经介绍了四种常见的分类模型,包括朴素贝叶斯,逻辑回归,SVM和决策树,下面我们综合比较一下这些算法在实际应用中优缺点及选择顺序。首先对于两种相对容易实现的算法朴素贝叶斯和逻辑回归:朴素贝叶斯是生成模型,依赖属性独立性的假设和合适的先验假设;逻辑回归是线性判别模型,最小二乘法目标驱动。它们共同的优点是直接给出预测结果概率,但是毕竟是线性模型,所以实际中效果往往不是最优的。有文献研究结果表明在小样本上朴素贝叶斯表现更好,随着数据增多,特征维度增大,逻辑回归效果更好。如果两种模型都无法达到精度的要求,我们需要尝试更复杂的模型。前文介绍SVM算法时,曾经给出逻辑回归和SVM一些异同点,SVM方法主要优势是非线性(适合高维数据)、稳健(对异常值不敏感)、自带正则项很少过拟合,但是数据量较大时计算资源消耗较大。对于另外一种非线性的算法决策树,无超参数生成决策树,快捷方便,虽然单棵决策树一般效果不如SVM,还容易过拟合,但是基于树的集成方法大大克服了这些困难,但同时计算复杂度也相应提升,好在一些集成方法较为适合并行或者在线学习。综上所述,对于小样本数据集,一般先用朴素贝叶斯提供一个基准,如果效果已经达到满足程度即可,不满足建议直接使用SVM,因为它性能超棒,计算资源也允许;随着样本量增加,可使用逻辑回归作为基准,效果不满意时,顺序尝试决策树,SVM和基于树的集成方法;对于大样本,需要执行并行任务或者在线更新模型时,建议以逻辑回归作为基准,然后这时基于树的集成模型(例如随机森林)可发挥更好的效果。关注我们长按二维码
2019年6月30日

这是一棵有思想的树-决策树

本次我们来学习决策树算法的理论基础。决策树,顾名思义,用于决策的树,至于为什么称为树,可能因其模型表现形式类似树的形状吧。决策树基于观测到的数据的概率,直观的建立起决策规则,是一种简单、非线性、符合认知的无参数分类(回归)的方法。具体来说,简单到可手算,具备刻画非线性关系的能力,符合人类决策习惯而且还没有需要提前设置的超参数,这个描述厉害炸了有没有?那么下面就随着有范君一起领略一下这树的神奇。合乎判别逻辑的树举个例子核心技术之叶子节点的确定核心技术之筛选属性实践一下01根节点信息熵02筛选划分属性树方法的进化C4.5CART树独特的过拟合的处理方法小结决策树算法将我们做判断的逻辑模型化,以严谨的逻辑,科学的指标构建完整的决策路径,是一种强大的无参数非线性模型。基于决策树模型理论和抽样技术,一系列的集成方法(后续更新)如随机森林、GBDT的提出,使树模型在并行运算,在线建模等方面取得良好的成绩。那么,通过本篇的介绍,你是否对建立决策树模型信心倍增了呢?再不济也应该从示例数据中得到一个结论吧:单身没房工资低,贷款都贷不到!开个小玩笑,有心得和疑问可留言有范君,然后我也不一定回复的。本篇主要参考文献还有周志华的西瓜书《机器学习》,有兴趣的同乡伙伴可参考。关注我们长按二维码
2019年6月29日

天秀之支持向量机(SVM)

支持向量机(Support
2019年6月28日

本质是分类的“逻辑回归”来了!

机器学习,绕不开预测问题,预测绕不开回归和分类。本篇介绍最常用的二分类算法:逻辑回归(Logistics
2019年6月27日

线性回归分析,你真的会吗?

机器学习三大主要分支:监督学习、无监督学习和半监督学习。对于监督学习,根据目标数据类型的不同分为二大核心任务:分类和回归。其中分类指目标数据为离散型变量,回归指目标数据为连续型变量。对于回归分析方法,本文主要介绍在实际应用最广泛的线性回归分析。下面有范君带你了解它的来龙去脉,后续会分享对应的实践样例(关于Python和R)。简洁的本质最优的思想严谨的验证1假设检验2拟合优度持续的进化点睛的正则下期再见经过假设检验,异常值处理,变量转化(交互项,多项式变换),正则化等步骤,一个相对完整的线性模型就建立起来了。在实际生产生活中,虽然很多相关关系并不是线性的,但是不妨碍其广泛的应用,在一定取值范围内,线性是很实用的。怎么样?这篇线性回归的介绍是否让你对线性回归有了更清楚的认识呢?在下一篇分享中,作者会给出Python和R语言关于Boston房价数据集的线性回归实践,想了解操作的同学们,不要错过了哈。关注我们长按二维码
2019年6月19日