聊聊量化分析
The following article is from 求知鸟 Author 求知鸟
当你能够量化讨论的事物,并且可以用数字描述它,你就对它有了深入了解。但如果你不能用数字描述,那你的头脑根本没有跃迁到科学思考的状态。
——英国物理学家 开尔文勋爵
1、两个量化case
测试地球周长:按照相似三角形的比例关系,已知两地之间的距离,便能测出地球的圆周长。埃拉托色尼测出夹角约为7度,是地球圆周角(360度)的五十分之一,由此推算地球的周长大约为4万公里,这与实际地球周长(40076公里)相差无几。他还算出太阳与地球间距离为1.47亿公里,和实际距离1.49亿公里也惊人地相近。
费米估计:一个你不知道的数、拆成几个你知道或者容易推测的数。这句话听起来简单,实际上做的时候,80%的错误解法就是把一个不知道的数拆解成一堆不知道的数。结果拆来拆去还是一脸懵逼。
先回顾下网上著名的北京每年的咖啡厅市场规模? 我们管这类问题叫整体市场规模类。
乍看这个问题很专业,实际是个小学数学问题:
“我家五口人,只有我一个人喝咖啡,每天一杯,每杯30块钱。那我家一年花多少钱买咖啡?”
转化成专业点儿的公式就是:
市场规模 = 用户基数(5口人) x 渗透率(1/5) x 消费频次(365杯/年) x 单价(30块)。
接下来就是按照公式进行拆解了:
北京按照记忆估算一下2200万人口。
单价按照常识估为30元/杯。
渗透率和消费频次可以根据自己和朋友的经验进行假设。根据人群细分,分别估算不同人群的渗透率和消费频次。
最终可以得出:
量化的概念是减少不确定性,并且也没必要消除不确定性。
2、量化没你想的那么难
下面提出一些有建设性的假设:
你的难题并没你想的那么独特
无论是某个待量化问题看上去多么独特,应该假设或许在另一个领域,它早就被人量化过了。如果这个假设不对,那就愉快的幻想你可以得"诺贝尔奖"吧。每个专业都有一个趋势,"和其它行业不同,我们行业里的每个问题都是独特的……有太多的因素需要在量化中被考虑"。实际上,他们说的任何一个难题都可以被转化为和其它领域没什么不同的量化问题。(保险行业就是量化的典范,将一系列不确定的因素转化为概率模型,从而估算保额)
你拥有的数据比你想象的多
讲真,把手头的数据用好,你就牛逼了。
你需要的数据比你认为的要少
到底需要多少数据可以将不确定性减少到足以评估问题的程度?可以通过一种特定类型的计算获得这些数据。当我们弄明白一组数据到底减少了多少不确定性时,我发现管理者经常能从如此少的数据中得到如此多的信息,尤其从极不确定的情况起步时。
3、量化与决策的关系
先看量化的五大步骤:
定义需要决策的问题和相关的不确定因素。 确定你现在知道什么 计算附加信息的价值 将有关量化方法用于高价值量化中 做出决策并采取行动
如果一项工作至关重要,那是因为它会对决策和行为产生一些可感知的效果,如果一项量化工作不能影响或改变决策,那它就没有价值。
不确定性和风险的区别:不确定性是个中性词,风险则带有负面色彩。
4、如何衡量不确定性
如何衡量不确定性:统计学中的置信区间和概率就是对不确定性的描述。生活中,我们常说"我有80%的把握认为这件事能成",置信区间和我们嘴中的80%都是对不确定性的估计,区别在于置信区间根据数据统计得出,80%则依靠个人主观经验。
研究发现,赔率制定者和博彩公司在评估事情的不确定性上表现更好,物理学家在评估他们不知道的事情上表现糟糕。因此,对于不确定性的概率估计是一项可以学习的技巧。但也要清晰认识到,估值范围取决于你的认知程度。
提高概率校准水平的方法:
重复和反馈。连续做几个实验,每做完一个看结果如何,然后在下一个测试中尽量提高水平。 等价赌博。对每个评估,设置等价赌博测试,看看你设置的范围或概率是否真的反应你的不确定程度。网上有个段子,"如果你有1亿元,你愿意捐出来吗?很多人会回答,我愿意。你继续问他,如果你有一辆车,你愿意捐出来吗?不愿意"。这就说明,将选择与你选择的物等价,可以提高估计准确度。 考虑赞成与反对双方意见。至少找出2点支持意见,同时找出至少2点反对意见。 避免锚定。在考虑范围问题时,将上下限问题分为两个独立的是非题,”真实值超过上限或低于下限,对此你有95%的把握吗“。 逆向锚定。先设置极大的范围,然后用荒谬测试逐渐缩小范围。研究人员发现,人们容易在脑子中形成一个锚,然后加减一个值作为他的区间,这很容易犯错。例如,开一家工厂需要多少钱你不知道,可以估算一个范围1w-1000w,然后逐步缩小范围,一台设备50w,从而增加下限,厂子最大容纳10台设备,从而缩小上限。
5、量化方法
5.1 贝叶斯
模型是量化的基石,量化方法在网上有很多,我这里着重介绍贝叶斯,这是因为,贝叶斯原理与其他统计学推断方法截然不同,它是建立在主观判断的基础上:在我们不了解所有客观事实的情况下,同样可以先估计一个值,然后根据实际结果不断进行修正。
贝叶斯原理
贝叶斯为了解决一个叫“逆向概率”问题写了一篇文章,尝试解答在没有太多可靠证据的情况下,怎样做出更符合数学逻辑的推测。
什么是“逆向概率”呢?
所谓“逆向概率”是相对“正向概率”而言。正向概率的问题很容易理解,比如我们已经知道袋子里面有 N 个球,不是黑球就是白球,其中 M 个是黑球,那么把手伸进去摸一个球,就能知道摸出黑球的概率是多少。但这种情况往往是上帝视角,即了解了事情的全貌再做判断。
在现实生活中,我们很难知道事情的全貌。贝叶斯则从实际场景出发,提了一个问题:如果我们事先不知道袋子里面黑球和白球的比例,而是通过我们摸出来的球的颜色,能判断出袋子里面黑白球的比例么?
假设有一种病叫做“贝叶死”,它的发病率是万分之一,现有一种测试可以检验一个人是否得病的准确率是 99.9%,它的误报率是 0.1%,那么现在的问题是,如果一个人被查出来患有“叶贝死”,实际上患有的可能性有多大?
问题分析:随机拉一个人进行检查,误报率是0.1%。那么如果一个人被检查患病,实际上患有的概率。也就是说,检查出患病准确率是99.9%,那么实际患病的概率是不是99.9%?
先验概率:通过经验来判断事情发生的概率,比如说“贝叶死”的发病率是万分之一,就是先验概率。
后验概率:后验概率就是发生结果之后,推测原因的概率。比如说某人查出来了患有“贝叶死”,那么患病的原因可能是 A、B 或 C。患有“贝叶死”是因为原因 A 的概率就是后验概率。它是属于条件概率的一种。
条件概率:事件 A 在另外一个事件 B 已经发生条件下的发生概率,表示为 P(A|B)。比如原因 A 的条件下,患有“贝叶死”的概率,就是条件概率。
似然函数(likelihood function):你可以把概率模型的训练过程理解为求参数估计的过程。似然在这里就是可能性的意思,它是关于统计参数的函数。
介绍完贝叶斯原理中的这几个概念,我们再来看下贝叶斯原理,实际上贝叶斯原理就是求解后验概率,我们假设:A 表示事件 “测出为阳性”, 用 B1 表示“患有贝叶死”, B2 表示“没有患贝叶死”。
患有贝叶死的情况下,测出为阳性的概率为 P(A|B1)=99.9%,没有患贝叶死,但测出为阳性的概率为 P(A|B2)=0.1%。对万分之一的解读:。患有贝叶死的概率为 P(B1)=0.01%,没有患贝叶死的概率 P(B2)=99.99%。
那么我们检测出来为阳性,而且是贝叶死的概率 P(B1,A)--联合概率分布
然后我们想求得是检查为阳性的情况下,患有贝叶死的概率,也即是 P(B1|A)
总结下来:后验概率= 条件概率/全概率
朴素贝叶斯,它是一种简单但极为强大的预测建模算法。之所以称为朴素贝叶斯,是因为它假设每个输入变量是独立的。这个假设很硬,现实生活中根本不满足,但是这项技术对于绝大部分的复杂问题仍然非常有效。
朴素贝叶斯模型由两种类型的概率组成:
1、每个类别的概率P(Cj);
2、每个属性的条件概率P(Ai|Cj)。
贝叶斯应用举例
我以下面的数据为例,这些是根据你之前的经验所获得的数据。然后给你一个新的数据:身高“高”、体重“中”,鞋码“中”,请问这个人是男还是女?
男女就是类型,男C1,女C2;
属性条件:身高A1,体重A2,鞋码A3
那么我们想求在 A1、A2、A3 属性下,Cj 的概率,用条件概率表示就是 P(Cj|A1A2A3)。根据上面讲的贝叶斯的公式,我们可以得出:
因为一共有 2 个类别,所以我们只需要求得 P(C1|A1A2A3) 和P(C2|A1A2A3) 的概率即可,然后比较下哪个分类的可能性大,就是哪个分类结果。等价于求 P(A1A2A3|Cj)P(Cj) 最大值
我们假定 Ai 之间是相互独立的,那么:
思考题
如果你的女朋友,在你的手机里发现了和别的女人的暧昧短信,于是她开始思考了 3 个概率问题,你来判断下下面的 3 个概率分别属于哪种概率:
1、你在没有任何情况下,出轨的概率;(先验概率)
2、在你的手机里发现了暧昧短信,认为你出轨的概率。(条件概率)
3、如果你出轨了,那么你的手机里有暧昧短信的概率;(后验概率)
对应到贝叶斯案例
1、假设有一种病叫做“贝叶死”,它的发病率是万分之一,
2、现有一种测试可以检验一个人是否得病的准确率是 99.9%,它的误报率是 0.1%
3、那么现在的问题是,如果一个人被查出来患有“叶贝死”,实际上患有的可能性有多大?
5.2 异动量化分析
短期诊断,就是分析推断业务核心指标近期涨跌的具体原因。业务在「短期诊断」上的诉求比「长期规划」要频繁甚至着急很多,因此对分析师做这件事情的效率有很高的要求。短期诊断本质上就是回答一个或多个「最近大盘指标 x 为什么跌了」的过程。
举例来说,全国的服装销量环比上个月上涨了20%,那北上广深等城市各贡献了多少的成长?
电商平台成交额同比去年下降了10%,服装服饰、家电等各行业各产生了多大的影响?
航旅业务环比上个月上涨了15%,新用户、老用户各起到了怎样的作用?
我们以 GMV=曝光人数X入店转化率X下单转化率X客单价X人均购买单量(默认1) ,来量化曝光人数,入店转化率,下单转化率,客单价对GMV的贡献。
以江西为例,GMV环比降低 6.8%,曝光人数贡献了-16.85%,入店转化率贡献了7.81%,下单转化率贡献了3.4%,客单价贡献了1.1% 。那么策略就很明显了,增加江西地区美团渠道的曝光人数,方向就是保证自然流量不掉的前提下,做好付费流量增长,从而拉高GMV。
推荐阅读
点击这里,阅读更多数据文章!