狗熊会

其他

统计学科的未来

最近统计community在讨论面对AI的冲击下统计学作为一门独立学科的identity,反思最近20年来的发展,以及展望了一下统计的未来。我们也有一些思考。现把这些思考整理如下。首先想先强调一下这篇文章主要说的是统计学科的未来,
2月29日 上午 7:01
其他

新书速递|王汉生:一本妙趣横生的、商业分析和数据科学入门级读物

时代在发展,科技在进步。我们已进入数字时代,数据也已渗透进我们日常生活的方方面面。比如球迷都很关注的英超联赛,最佳射手是可以用技术回归的数据分析方法去计算出来的。比如我们的国粹之一——麻将,最尴尬的莫过于三缺一的场面了,用深度学习的方法能让计算机学会打麻将,从此彻底告别尴尬。再比如让亿万观众欲罢不能的《甄嬛传》,通过网络结构数据甚至可以分析出连甄学十级学者都忽略掉的剧中细节,用数据分析助力你登顶甄学学者之巅。但要警惕的是,大数据也有可能穿着“皇帝的新装”,我们需要了解一些大数据方面的知识,以便能够看穿华丽的伪装与大数据骗局。樊登读书会推荐妙趣横生!!!必备入门级读物北大光华管理学院推荐用书狗熊会出品第一版销售6W册数据思维:从数据分析到商业价值(第2版)王汉生
1月4日 上午 7:02
其他

商务统计学基础 | 第四章 神经网络模型

点击上方"狗熊会"关注我们吧!本节的目标是对另一种非常重要的机器学习模型进行介绍,而该模型是一种非常典型的黑盒子类型的模型,具有难以解读的特点,它就是神经网络模型。这类模型极其重要,因为它是深度学习的模型基础。而深度学习是目前人工智能领域最受关注的算法,因此极其重要,值得了解和学习。为了帮助大家理解此类方法在实际中的巨大应用,首先与大家分享几个经典成功案例。为了直观方便,这些案例以图像应用为主。当然这绝不意味着神经网络模型的应用仅局限于图像数据。事实上,神经网络模型在几乎所有的非结构化数据分析中都有极其成功的应用,例如:声音、语言等。而本节案例以图像为主仅仅是因为其更加简单直观而已,希望向大家展示各种有趣的图像识别应用问题是如何被规范成一个关于X与Y的问题的,以帮助大家快速建立一个理论框架。案例1:手写数字识别。手写识别是指将手写字符转换为机器可读的格式的过程。在数字化时代的背景下,很多传统纸质文件都一步步走向电子化,而在这一过程中手写识别起着至关重要的作用。例如企业内部的报账流程就可以通过手写识别加快速度。据百度报道,中国移动设计院就曾对内部报账系统进行包含手写识别在内的智能化改造,使得原本20分钟的人工填报流程被缩短至1分多钟。而手写识别中最基础的类型就是手写数字识别。以银行手写支票识别为例,在电子支付日益普及之前,支票曾经是一种重要的支付方式。据美联储统计,2000年时支票曾是全美最主要的非现金支付方式,总支付金额达到400至500亿美元。在银行进行支票兑现的过程中,银行工作人员需要识别支票上的手写数字,并将其输入银行系统中。传统的人工识别方式费时费力,因此人们提出使用神经网络来识别手写数字。为此发展了一些用于训练神经网络的数据集,例如MNIST数据集。这是一个手写阿拉伯数字数据集,可以从多种渠道公开获取。该数据集最早由图灵奖获得者LeCun1等人给出,是一个重要的学习资源。该数据集对应的是一个十分类问题,即将一张分辨率的黑白图片分类为数字0至9。其中部分数据如图4.7.1所示。对于该案例而言,像素的手写数字图像就构成了X,而该图像上的数字到底是几,就构成了。因此这个问题的本质就是一个十分类的回归分析或机器学习问题。但其独特之处在于输入X是一个高度非结构化数据,对此传统的线性或广义线性模型处理能力有限,而基于神经网络的深度学习模型大放异彩!图4.7.1
1月3日 上午 7:02
其他

商务统计学基础 | 第四章 决策树

点击上方"狗熊会"关注我们吧!前面我们介绍了一种重要的适用于0-1型因变量的回归分析模型:逻辑回归。从理论上讲,逻辑回归是广义线性回归模型的一个特例。从名字上就可以感受到,这个模型的本质就是某种线性模型。线性模型有很多优良的性质。例如:非常简单,而且参数个数少,因此能够支持相对比较小的样本估计。同时,因为模型结构简单,参数估计结果也很好解读。这些都是线性模型的优点。但是,天下没有免费的午餐,在统计模型的构建过程中,凡是优点就一定伴随着缺点。各种线性模型(包括广义线性模型)的主要缺点是什么呢?答:不灵活。因为这是一个线性模型,因此它的函数形式单一,难以描述更加灵活的函数形态(例如:非单调的相关关系)。而现实生活中碰到的问题,可能非常复杂。当面对复杂问题的时候,其实我们仍然会优先考虑相对简单的线性模型,为什么?因为样本量常常不够大。但是,随着计算机技术的进步,人们能够采集到越来越多的样本,这就为建立更加复杂的非线性模型提供了可能,而各种各样的非线性模型,成就了机器学习(或者统计学习)这个特定的领域。本节的目标是为各位同学进入机器学习领域提供一个小小的起点。为此,我们只关注一类最典型的机器学习问题:二分类问题。为什么关注这类问题?因为:这类问题太典型了,在实际工作中太常见了。本质上,前一节关于逻辑回归所探讨的所有案例场景,都是二分类问题。对于二分类问题,我们探讨两种典型的机器学习方法:决策树(或者分类树)以及神经网络。为什么关注这两类方法?我们关注决策树是因为这是机器学习方法中非常少有的(甚至仅有的)一类非常好解读的方法。其他大量的机器学习方法更像是一个黑盒子。作为用户只知道最后的预测结果,但是很难理解该结果是怎样形成的。另外,我们关注神经网络是因为它是人工智能领域深度学习的模型基础。这是一类非常难以解读的机器学习方法,但是非常重要。因此,如果能够很好地理解并掌握这两类方法的核心思想,那么未来接触机器学习理论可能会更加容易一些。本节先从决策树开始。要想理解决策树(或分类树)的理念,首先需要回答两个问题:第一,什么是决策或分类?第二,什么是树?所谓决策就是指的一个二分类问题:即判断0-1型因变量Y的取值是0还是1。例如医生在诊断过程中需要判断:该患者是否患病?这就是一个典型的决策问题。银行在处理客户的贷款申请时也需要判断:该客户是否会违约?这也是一个典型的分类问题。那么什么是树呢?树其实是人们在生活中非常熟悉的一种决策规则,请看如下案例。案例1:
2023年12月25日
其他

商务统计学基础 | 第四章 0-1回归模型

点击上方"狗熊会"关注我们吧!我们在上一节中系统地学习了线性回归模型,线性回归模型解决的是连续型因变量的建模和预测问题。然而在我们的实际生活中,也经常会碰到0-1型因变量的情况。所谓0-1型因变量就是只有两个可能性的离散型因变量,常常(并不是所有情形)可以被规范成一个是否的问题。比如:该邮件是否是垃圾邮件?某互联网广告是否会被点击?信贷业务中用户借贷后是否会按时归还?等等。此时,研究问题的因变量Y是一个0-1型变量。面对0-1型因变量,为什么不能用上一节讲的线性回归模型来拟合呢?回顾最简单的一元线性回归模型,。如果将该模型用在0-1型因变量上,那么此时等号的左边是一个取值为0或者1的值,但是等号的右边是一个连续型数值(因为的存在)。所以左边和右边永远不可能完全相等。因此线性回归模型不能直接对0-1型因变量建模。那应该怎么办呢?这就需要用到回归五式的第二式:0-1回归模型。为了更好的介绍0-1回归模型,我们以一个实际案例为例,详细讲解0-1回归模型的各个方面。案例介绍本章采用一个关于汽车保险的案例。为什么采用这样一个案例?因为随着人民生活水平的不断提高,汽车已经逐渐成为家庭标配。国家统计局数据表明,2020年全国平均每百户居民拥有37.1辆家用汽车。从总量上看,图4.5.1展示了我国民用汽车保有量从2008年到2021年的变化情况。从中可以看出,自2008年以来我国民用汽车保有量持续增加,2021年已经达到了2.9亿辆,是2008年的6倍左右。图4.5.1
2023年12月20日
其他

商务统计学基础 | 第四章 时间序列模型

点击上方"狗熊会"关注我们吧!本书目前所涉及到的数据类型都是横截面数据(Cross-Sectional
2023年12月13日
其他

商务统计学基础 | 第四章 线性回归模型

点击上方"狗熊会"关注我们吧!本书在4.2节给大家介绍了回归五式,对这五种回归模型进行全面系统的介绍超出了本书的范畴,这应该是一个独立的回归分析教材探讨的内容。本书作为一本入门级教材,将结合实际案例,对其中两种可能最重要的模型进行简要介绍。具体而言,本节将首先讨论线性回归模型。如前所述,线性回归模型是实际工作中用得最多最广泛的统计模型之一。它不仅仅为我们提供了一套系统而有效的分析预测方法,而且为我们提供了一套完整的方法论。我们已经在上一节中介绍过,普通线性回归模型的主要特征是:因变量必须是连续型数据,比如股票收益率、商品销售额等。接下来,我们将以一个实际案例为例,详细讲解线性回归模型的各个方面。案例介绍火锅在中国餐饮市场上备受消费者青睐。有数据显示,我国有27.9%的消费者每周吃火锅不少于两次。近年来,我国火锅餐饮市场增长迅速。相关研究表明,2016至2019年中国火锅行业市场规模持续增长,2019年已达到5188亿元。虽然2020年受疫情影响有所下降,但仍有4380亿元的市场规模。火锅市场规模的变化趋势如图4.3.1所示,火锅的受欢迎程度可见一斑。图4.3.1:中国火锅行业市场规模变化趋势图现有某火锅品牌,对于火锅在西安的前景非常看好,想要进军西安市场。在正式进军之前,它希望可以先对西安市场进行调研,了解什么样的火锅菜品销量更高,这样可以更好地将自己的品牌特色与西安当地的大众口味相融合,从而顺利打开西安市场。这个案例关注的核心业务指标就是火锅销量,这也是回归分析中的因变量Y。最理想的Y应该是在不同类型火锅店的真实销售量,包含线上和线下的销量。但是这样的数据显然是无法获取的,试想有几个火锅店的老板能把这样的数据公开给自己的潜在竞争对手呢?因此,我们只能采取一个退而求其次的替代品,那就是团购网站上公开的团购销量。这样的一个指标显然不尽完美,但实际数据分析又哪有完美可言,永远是在不完美中寻找希望。团购销量其实并不是严格的连续型数据。但是4.2节曾给出一个用于判断数据是否近似连续的简单而且不严格的标准:把所有可能取值从小到大排序,看相邻两个数的差距相对于整个取值范围而言是否足够小。团购销量相邻两个数的差距可能只有1,而整个取值范围最小可以是零,最大可以是以千计,因此实际工作中可以将团购销量近似地看作连续型数据。为了排除店铺在团购平台上线时长的影响,本案例使用的是年化销量而非累计销量。定义:年化销量=累计销量/上线时长,单位为份/年,这就是最终的因变量Y。确定了因变量Y,接下来需要寻找一些与Y相关的解释性变量X。本案例提供的解释性变量有6个,包括团购信息和店铺信息两类,具体见表4.3.1的变量说明表。本案例共收集了330条火锅团购项目的数据。下一步要做的,就是通过回归分析,建立X与Y之间的关系。表4.3.1:变量说明表描述分析在正式分析前,需要进行必要的描述统计分析,它能帮助我们发现很多问题。具体而言,首先可以计算各个数值型变量的一些汇总统计量,比如均值、中位数、最小值、最大值和标准差,从而对数据有一个整体印象。计算结果如表4.3.2所示,从中可以对各个变量予以简单描述。例如:从团购销量的描述性统计量可以知道,在330个样本中,年化团购销量处于0.33份/年到3788.56份/年之间,可见不同店铺之间的销量差异较大。年化团购销量的平均水平约为216.32份/年(平均值)、35.21份/年(中位数),其标准差为470.26份/年。平均值远远大于中位数,说明年化团购销量呈现极端右偏的分布,即大部分的火锅销量较小,而销量高的店铺很少。又例如:从店铺评分的描述性统计量可以知道,在330个样本中,店铺评分的范围为0分到5分之间,可见不同店铺的口碑差异很大。店铺评分的平均水平为4.3(均值)和4.5(中位数),这说明店铺评分平均水平较高。
2023年12月8日
其他

商务统计学基础 | 第四章 数据类型与回归模型

点击上方"狗熊会"关注我们吧!在上一节我们从“道”的层面,介绍了回归分析的思想。简单来说,回归分析就是研究X和Y的相关性。在回归分析思想的指导下,实际中很多的业务问题,都可以被规范成为一个数据可分析问题。从本节开始,我们从“术”的层面来详细学习回归分析的各种方法。在选择回归分析方法时,一个非常重要的考虑因素就是因变量Y的数据类型。下面,我们将根据Y的不同数据类型,为大家介绍最常见的五种回归分析模型,它们分别是:线性回归、0-1回归、定序回归、计数回归、以及生存回归,我们将其称之为“回归五式”。希望通过这样的讨论,帮助大家快速建立一个回归分析理论的大概框架。第一式:线性回归前面我们提到,回归分析就是关于X和Y相关性的分析。那么具体到线性回归,或者更严格地说,普通线性回归,它的主要特征是什么呢?普通线性回归的主要特征就是:它的因变量必须是连续型数据。什么是连续型数据?简单通俗的讲,就是数据的取值需要是连续的。例如:身高、体重、价格、温度都是典型的连续型数据。我们在第一章中介绍的各种连续型概率分布,所对应的数据就是连续型数据。从数学理论上定义一个“连续”型数据不是一个非常平凡的事情。这是微积分与实变函数论的内容,本书不做深入探讨。但是我们希望指出的是,在实际工作中,所有的计算机都只能存储有限位的有效数字,因此,真实世界中不存在严格的连续型数据,只有近似连续的数据。而判断数据是否近似连续的一个简单而且不严格的标准是:把所有可能取值从小到大排序,看相邻两个数的差距相对于整个取值范围而言是否足够小。例如价格有时精确到一角甚至一分,而价格的范围可以小至一元或是大至百万,因此价格满足近似连续的特征,在真实世界中可以近似看作连续型数据。连续型数据在我们的生活中有着非常多的重要应用。请看以下案例。案例1:股票投资。据上海证券交易所官方统计,截止至2021年12月31日,上交所已有2037家上市公司,股票总市值达到52万亿元,庞大的股市体量为各类金融机构以及个体投资者进行投资交易提供了基础。在股票投资场景中,投资人最关心的核心业务指标就是某只股票或者某资产组合的未来收益率,因此因变量Y就是股票收益率。图4.2.1展示了6支上交所的主板A股在一段时间内的日度收益率数据,可以看到日度收益率精确到了小数点后第4位,相对于收益率取值范围(±10%)而言,两者之间的最小差距(0.0001%)已经足够小了。因此,可以认为股票收益率是一个连续型数据。在关注股票收益率Y的变化的同时,投资人可能也关心有哪些显著影响股票收益率的因素X,例如X可以是该股票背后企业的财务会计指标。根据经典的财务会计教科书描述,常见的财务会计指标包括但不限于净资产收益率、总负债与总资本比率、流动比率等等,上述三个指标分别能够反映该企业的盈利能力、长期债务偿还能力和短期债务偿还能力。如果能够建立Y和这一系列影响因素X的相关关系,那么就可以通过X去预测Y,然后构建合理的交易策略,实现超额收益率。图4.2.1
2023年11月29日
其他

《商务统计学基础:从不确定性到人工智能》PPT及数据代码上线

各位小伙伴们好,前阵子熊大和菲菲的新书《商务统计学基础:从不确定性到人工智能》出版啦!在当前人工智能时代下,统计学作为数据分析领域的基础变得尤为重要。统计学方法也越来越多的被应用于各行各业,发挥着重要价值。为了更广泛的普及统计学知识,培养更多的统计学人才,本书应运而生。作为一本统计学的入门级教材,本书希望为读者(尤其是非统计学专业的朋友)进行统计学学习提供一个好的起点。这本书安排了四个章节的内容,分别是从不确定性出发、参数估计、假设检验、回归分析。各个章节都辅助以大量的实际案例,希望在介绍统计学基础知识的同时培养读者应用统计学方法解决实际问题的能力。具体的章节目录如下图:本书配套了PPT、R语言代码以及实际数据,现在已经免费在狗熊会上线了,点击阅读原文就可以获取!本书在京东和当当也有促销活动,感兴趣的小伙伴也可以扫描二维码购买支持一下!01【京东购书】02【当当购书】点击此处“阅读全文”获取PPT和数据代码
2023年11月22日
其他

商务统计学基础 | 第四章 回归分析是什么

点击上方"狗熊会"关注我们吧!在前面几个章节中,我们学习了统计学中几个非常重要的思想和方法论,比如参数估计、假设检验等。从本节开始,我们将开启一个全新的领域,即回归分析。回归分析是用来干什么的呢?简单来说,就是研究两个随机变量X和Y的关系。它们的关系可能是线性的、非线性的,参数的、非参数的,一元的、多元的,低维的、高维的,各种各样,不尽相同。因此,回归分析中模型的具体形式也会随X和Y之间关系的不同而变化。这都是在“术”的层面讨论回归分析。其实,回归分析不仅仅是一类技术方法,它还可以站在一个更高的“道”的层面来理解。在这个层面上,可以将回归分析看成一种非常重要的思想。可以毫不夸张地说,回归分析是数据分析中最重要的基本思想。为什么呢?因为在这种思想的指导下,实践中的绝大多数业务问题,都可以被规范成为一个数据可分析问题,然后用回归分析的思想来解决。而该回归分析问题是否定义清晰,也是相应的数据分析问题能否成功解决的关键。下面将向大家详细阐述回归分析基本的方法论和思想。前面提到,回归分析是干什么的?答:是研究两个随机变量X和Y的关系的。请注意这里的X可以是一个向量,也就是说X可以包含多种信息。如果更加准确一些,可以认为,回归分析是研究X和Y的“相关关系”的。请大家注意,绝大多数情况下,普通的回归分析只能研究X和Y的相关关系,而无法研究因果关系。这当然不是说因果关系不重要。恰恰相反,因果关系极其重要。在统计学理论中有一个重要的分支就是因果推断。它研究的就是在什么条件下、对什么样的因果关系可以做什么样的推断。这部分内容超出了本书的范畴,因此不作讨论,而绝不是说因果推断不重要。本书只探讨最常见的应用情形,在这种情形下研究X和Y的相关关系更容易一些。显然这是一个退而求其次的解决方案,但是它在实践中也经常发挥非常重要的作用,正所谓“聊胜于无”,通过规范的回归分析所得到的相关关系,总比我们随机拍脑袋瞎猜好不少。解决了相关性的问题,再来看看什么是X,什么是Y。前面提到,回归分析之所以是一种非常重要的思想,就是因为在这种思想的指导下,绝大多数的业务问题,都可以被规范成为一个数据可分析问题。那么如何变成一个数据可分析问题呢?核心在于回答两个问题:第一、Y是什么;第二、X是什么。首先来看Y。Y是什么?在统计学中,Y俗称因变量,顾名思义,就是因为别人的改变而改变的变量。在实际应用中,Y刻画的往往是业务的核心问题,是科学研究的关键问题。下面将通过一系列场景来阐述Y是什么。案例1:信贷风控。信贷的业务形式很简单。某客户缺钱,找银行借钱,并约定好时间归还。届时,该客户除了应该归还银行本金以外,还应该支付一个约定好的利息。对于银行来说,是否要借钱给该客户呢?如果出借,并且该客户按时还钱了,那么银行可以获得一笔利息收入。如果该客户没有按时还钱,那么银行将失去的不仅仅是应得的利息收入,还包括出借的本金,损失惨重。可见客户能否按时还钱就是信贷业务中的核心业务问题。不幸的是,该客户是否按时还钱具有一定的不确定性,不妨定义Y=1表示该客户在未来无法按时还钱,Y=0表示该客户可以按时还钱。对于银行来说,为了尽可能规避客户到期不还钱的风险,就需要利用所有可利用的工具手段以及数据分析方法,提前预判客户是否会违约,也就是预测Y。案例2:股票收益率。股票投资是一件充满风险的事情。在股票市场中,赚得盆满钵满和血本无亏都大有人在。对于投资人来说,是否要投资某只股票呢?如果这只股票的收益率将会大于无风险收益率(例如3%),那么投资这只股票就能够实现超额收益率。如果这只股票的收益率将会小于无风险收益率,那么投资这只股票就会造成亏损。可见股票收益率就是股票投资中的核心业务问题。不妨用Y表示股票收益率,Y一定是具有不确定性的,因为它每天都会变化。对于投资人而言,为了尽可能规避股票投资亏损的风险,就需要利用所有可利用的工具手段以及数据分析方法,提前预估股票收益率,也就是预测Y。案例3:精准广告。广告收入已经成为许多互联网平台收入来源的重要组成部分。为了尽可能地提高广告的准确性,增加广告的点击率,许多广告平台都在追求精准投放。当广告平台面临一个展示广告的机会时,它是否要选择展示广告呢?如果展示广告,而且客户对广告感兴趣,就会产生点击行为,这就给广告平台带来了收益。如果客户对广告不感兴趣,客户不会点击广告,展示广告就对客户造成了骚扰。可见客户是否会点击广告就是精准广告业务中的核心业务问题,具有很大的不确定性。不妨定义Y=1表示客户会点击广告,Y=0表示客户不会点击广告。对于广告平台来说,为了尽可能规避损失广告收入或是骚扰客户的风险,就需要利用所有可利用的工具手段以及数据分析方法,提前预判客户是否会点击广告,也就是预测Y。案例4:车辆出险。有车险业务的保险公司会与许多车主都签订保险合同。一般来说,大部分的车主都不会出险,但也有少部分车主会发生事故,这时保险公司就需要启动核保定损等一系列流程,进行赔付。面对一个特定车主,对于保险公司而言,应该将保费定为多少呢?如果该车主将来出险的可能性高,那么就应该制定高一些的保费,不然可能会导致很大的损失。如果该车主将来出险的可能性低,那么就可以制定低一些的保费。可见车主是否出险就是车险业务中的核心业务问题。而车主是否会出险是具有不确定性的,不妨定义Y=1表示车主出险,Y=0表示车主不出险。对于保险公司来说,为了尽可能规避损失和极大化利润,就需要利用所有可利用的工具手段以及数据分析方法,提前预判车主是否会出险,也就是预测Y。案例5:客户流失。对于企业来说,吸引新客户固然非常重要,但留住已有的客户,防止客户流失也是不能忽视的一件事。以某家证券公司为例,如果某客户在证券公司的APP上开通了账户,但某天他再也不在APP上进行交易甚至不访问APP了,那么证券公司就流失了一名客户。证券公司的客户运营方一定很关心客户是否会流失。如果客户将来会流失,那么运营方可以通过发送短信、发送弹窗信息等方式来挽留客户。可见客户是否流失是客户运营中的核心业务问题。不妨定义Y=1表示客户流失,Y=0表示客户不流失。显然Y是具有不确定性的,因为客户的行为与他的经济条件、风险偏好等很多因素都有关,具有很强的不确定性。对于证券公司的客户运营部门来说,为了尽可能地挽留客户,做好流失预警,提前准备召回策略,就需要利用所有可利用的工具手段以及数据分析方法,提前预判客户是否会流失,也就是预测Y。通过以上场景可以看到,什么是Y?Y就是实际业务的核心问题或者科学研究的关键问题。明确了Y,我们再来讨论一下什么是X。X就是用来解释Y的相关变量。可以是一个,也可以是很多个。我们通常把X称作:解释性变量。回归分析的任务就是,通过研究X和Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。那么X到底是什么呢?在不同的场景中,X的选择也会不同。案例1:信贷风控。回到上面某客户向银行借钱的例子,到期后该客户是否可以按期归还(Y=1或者0)是信贷业务的核心指标。由于该客户是否会按时还钱具有一定的不确定性,所以银行需要收集尽可能多的数据,帮助他事先预测该客户是否能够按时还钱。这种预测是否能100%准确呢?显然不可能,因此具有很大的不确定性。所以银行需要寻找优质的X来尽可能提升预测的准确率,降低预测的不确定性,从而作出更好的判断。这里以两款借贷产品“京东白条”和“借呗”为例进行说明。这两款产品都是无抵押的借贷产品,用户在填写个人信息后即可发起申请。官方会根据用户的信息以及消费记录,决定是否批准申请,并为用户量身定制放贷额度。假设该客户正在申请开通京东白条或借呗,相应的申请页面如图4.1.1所示,他需要填写图中红框所标记的个人信息。那么官方为什么要调查这些个人信息?正是因为这些信息能够帮助它们预测该客户是否会按时还钱,从而决定是否出借。从图4.1.1可以看到,申请时需要填写借款人的性别(X1)、国籍(X2)、职业(X3)、常用地址(X4)、学历(X5)、年收入(X6)、公积金(X7)、车牌号(X8)等信息。一般而言,年收入更高、有公积金的申请人按时还款的可能性更大。除了这些信息以外,官方还会根据借款人的消费记录来调整借贷额度。一般而言,消费得越多,额度就越高,也就是官方认为借款人更有可能按时还款。因此可以考虑将消费支出(X9)以及消费频率(X10)等信息作为解释性变量。这里展示的两款产品都是无抵押的金融产品,因此不需要抵押资产。如果客户是到银行申请传统的抵押贷款,银行还需要调查他的可抵押资产信息。可抵押资产可能包括:房屋(X11)、交通运输工具(X12)、土地使用权(X13)等等。一般而言,拥有更多可抵押资产的申请人按时还款的可能性更大。所有这些信息X都可以用于预测Y。图4.1.1:京东白条和借呗申请页面案例2:股票收益率。根据中国证券登记结算有限责任公司(简称“中国结算”)发布的数据,2022年2月25日,我国A股投资者数量已经突破2亿大关。在股票投资中,股票收益率的大小Y是核心的业务指标。如此大规模的股民都在关心着股票收益率。遗憾的是,股票的收益率具有一定的不确定性,所以投资人需要收集尽可能多的数据,来事先预测股票收益率的大小。这种预测是否能100%准确呢?显然不可能,因此具有很大的不确定性。所以投资人需要寻找优质的X来尽可能提升预测的准确率,降低预测的不确定性,从而帮助他在投资时作出更好的判断。假设某投资者正在考虑是否要购入贵州茅台的股票,那么他就需要收集各种X,来对贵州茅台的股票收益率进行预判。可以收集哪些X呢?首先他可以关注公司的财务状况。一般来说,如果公司财务状况持续向好,具有发展潜力,股价往往会上涨,股票收益率也就更高。反之,财务状况异常的公司则有可能具有更大的投资风险。财务指标可以从企业财报中找到,从贵州茅台2021年年度报告中截取出相关指标如图4.1.2所示,其中包括大量财务会计指标。这些指标都能够作为用于预测股票收益率的X指标,这里仅选取其中几个进行简单的解读。首先考虑会计数据,例如营业收入(X1)和净利润(X2)。营业收入是包含成本的收入,而净利润是去除成本和所得税的收入。它们都能够反映企业的规模和盈利能力。人们还常常关注营业收入增长率(X3)和净利润增长率(X4),因为它们反映了企业的增长速度。报表中给出的净资产(X5)、总资产(X6)和股本(X7)都能够反映公司规模。此外报表中还有大量财务指标,例如基本每股收益(X8),该指标为净利润除以总股本,反映了属于普通股股东的当期净利润。也可以考虑稀释每股收益(X9),它在基本每股收益的基础上作出了一定的调整。还可以考虑加权平均净资产收益率(X10),它等于报告期净利润除以平均净资产,反映了每单位净资产能够给企业带来的净利润。一般而言,盈利能力越强、增长速度越快、规模越大的公司,其股票收益率也有可能更高。所有这些信息X都可以用于预测Y。图4.1.2:贵州茅台2021年年度报告中的主要会计数据和财务指标案例3:精准广告。广告投放中,用户是否会点击广告(Y=1或者0)是业务的核心指标。由于用户的行为具有一定的不确定性,所以广告平台需要收集尽可能多的数据,来事先预测用户是否会点击广告。这种预测是否能100%准确呢?显然不可能,因此具有很大的不确定性。所以广告平台需要寻找优质的X来尽可能提升预测的准确率,降低预测的不确定性,从而帮助广告平台作出更好的判断。一种十分常见的广告形式是电商平台中的搜索广告,这里以京东平台的搜索广告为例。当用户在搜索框中输入自己想要购买的商品时,京东就会向用户展示一系列商品结果,这些其实就是商品广告。为了实现精准投放,京东会使用一套推荐算法,对于不同的用户按不同的顺序展示不同的商品广告。例如某用户要在京东购买生活用品,搜索了“牙刷”、“洗面奶”和“沐浴露”,展示结果如图4.1.3所示。每一条商品广告都有许多不同的元素,而这些元素可能都与用户的点击行为有一定的相关关系。比如:不同广告的标题不同(X1)、长短不同(X2)、格式不同(X3),图片颜色不同(X4),代言人不同(X5)等等。此外,商品的价格(X6)、品牌(X7)和品类(X8)也各不相同,还有不同的优惠活动(X9)。一般而言,有优惠活动的商品广告被点击的可能性更大。值得一提的是,商品可能来自不同的店铺(X10),有的来自京东自营店,有的来自官方旗舰店,而有的来自其他非官方、非自营店铺。一般而言,京东自营和官方旗舰店被点击的可能性更大。此外,不同商品广告的展示位置不同(X11),有的在前,有的在后。一般而言,位置靠前的广告被点击的可能性更大。所有这些信息X都可以用于预测Y。图4.1.3:京东商品广告展示界面案例4:车辆出险。车主是否出险是车险业务中的核心指标。由于是否出险和理赔金额都具有一定的不确定性,所以保险公司需要收集尽可能多的数据,来事先预测车主是否会出险或预测车险理赔金额大小。这种预测是否能100%准确呢?显然不可能,因此具有很大的不确定性。所以保险公司需要寻找优质的X来尽可能提升预测的准确率,降低预测的不确定性,从而帮助它作出更好的判断。哪些X可以帮助预测车主是否出险呢?图4.1.4展示了一张美国艾伦金融保险集团的车险申请单,上面需要车主填写的信息其实就是保险公司所关心的X指标。从图中可以看到,需要填写的信息包括:被保险人信息、驾驶人信息、车辆信息和当前保险信息四大版块。被保险人信息版块采集了被保险人所在城市(X1.1)、被保险人所在县(X1.2)、被保险人所在州(X1.3)以及车辆是被保险人租赁还是被保险人所有(X1.4)等信息。一般而言,经济越发达的地区人口越多,车辆越多,出险的可能性也会更高。驾驶人信息版块采集了婚姻状态(X2.1)、性别(X2.2)、年龄(X2.3)和驾龄(X2.4)等信息。一般而言,已婚女性高驾龄车主出险的可能性更低。车辆信息版块采集了车龄(X3.1)、年度里程(X3.2)、主要用途(X3.3)、是否有防抱死刹车系统(X3.4)、是否有安全气囊(X3.5)和是否有防盗装置(X3.6)等信息。显然有防盗装置的车辆被盗抢的可能性更低。当前保险信息版块采集了人身伤害赔偿限额(X4.1)、财产损失赔偿限额(X4.2)、碰撞免赔额(X4.3)和综合意外免赔额(X4.4)等信息。所有这些信息X都可以用于预测Y。图4.1.4:车险申请单案例5:客户流失。上面证券公司客户流失的例子中,客户是否流失(Y=1或者0)是公司运营业务的核心指标。2018年中国结算下发了一则《关于进一步规范证券账户销户业务的通知》,规定自2019年3月1日起,证券公司对于非现场开户的投资者应当提供非现场销户的便利。也就是说,许多投资者注销账户不必到现场办理,这又增加了证券公司对客户流失的担忧。有研究表明,证券公司每减少5%的客户流失,就能使盈利水平提高25%至85%。可见减少客户流失对于提升证券公司的业绩非常重要。但遗憾的是,客户的行为具有一定的不确定性,所以证券公司需要收集尽可能多的数据,帮助它事先预测客户是否会流失。如果能够提前建立客户流失预警模型,并且找到影响客户流失的因素,就能够更好地对潜在流失客户进行客户挽留,从而避免客户流失。所以证券公司需要寻找优质的X来尽可能提升预测的准确率,从而帮助运营部门进行判断。如何寻找X呢?不妨站在客户的角度考虑一下,如果我是证券公司的客户,有哪些因素会影响我流失或不流失呢?可以从资产情况、个人信息和服务质量三个方面去考虑。首先是资产情况,这包括了市值(X1.1)、交易量(X1.2)、佣金(X1.3)、盈亏(X1.4)、保证金(X1.5)、负债(X1.6)、资产(X1.7)、流入和流出(X1.8)等信息,图4.1.5展示了某项证券公司客户流失预警研究中使用的资产类X。一般而言,资产更少、亏损更多的客户更容易流失。第二个方面是个人信息,包括性别(X2.1)、年龄(X2.2)、学历(X2.3)等。第三个方面,证券公司的服务质量也会影响客户的行为,这包括了服务态度(X3.1)和专业程度(X3.2)等。经验表明,更好的服务态度和更专业的服务能力都有助于降低流失率。所有这些信息X都可以用于预测Y。图4.1.5:证券公司客户流失研究中的部分影响因素X通过上述介绍可以知道,在研究具体的业务问题时,第一步就是要清晰的定义
2023年11月7日
其他

精彩推文集锦

点击上方“狗熊会”,发现更多精彩。大家好,狗熊会一路成长到今天,能够在数据科学相关的内容创作上有一些小小的积淀,离不开各位熊粉的支持和陪伴,在此对大家表示衷心的感谢!我们为大家梳理了部分精彩推文,方便大家查阅,也欢迎各位熊粉在内容创作上给我们提出您的宝贵意见!NO.1网络结构数据Historical
2023年11月2日
其他

商务统计学基础 | 第三章 假设检验:假设检验中的样本量计算

点击上方"狗熊会"关注我们吧!前一节提到,假设检验也会涉及到样本量计算,尤其是在临床试验中。假设一个新药研制成功,正在进行上市注册,请问药监局会做出什么样的原假设?假设它有效,还是无效?答:当然是无效。因为对于药监局而言,这是一个更加保守的假设。除非在上市审核过程中,药厂能够提供足够的证据推翻原假设。怎么提供足够的证据呢?主要的证据来源是临床试验,尤其是第三期临床试验(假设前两期非常顺利)。据相关媒体报道,某药厂在开发二价人乳头瘤病毒(HPV)疫苗的过程中,在一至三期临床试验中花费的资金高达47498.7万元,其中每个试验样本平均投入费用达到3.3万元,这显然是一笔巨大的开支。因此,药厂有很大的动力去尽可能节省开支。而节省开支最有效的办法就是减少样本量,因为临床实验的开支主要取决于样本量的大小。但是,这样做的坏处是什么?会影响第一类错误吗?答:不是的,因为第一类错误永远可以受到良好控制。主要影响的是第二类错误,即:对立假设是正确的,但是人们错误地接受了原假设。在新药上市这一例子中,第二类错误是错过良药。对于药厂而言,自然不希望千辛万苦研发成功的良药无法上市。因此,不仅仅第一类错误的概率要控制,第二类错误的概率也要控制的越小越好。所以为了降低第二类错误的概率,药厂会希望样本量越大越好。但是,样本量越大,成本也就越大。因此就产生了一个有趣的问题:一方面两类错误水平都想得到有效控制,另一方面又想要尽可能节省样本量。请问:这其中的矛盾应该如何协调?本节将以均值检验问题为例,详细探讨一下这个问题。单边假设检验首先考虑单边假设的均值检验问题,假设总体均值为参数,需要比较均值参数和某个给定数值的大小关系。那么假设检验问题可以设置为::。通过3.4节的介绍可以知道,该假设检验问题的决策规则是当时,接受原假设:;反之当时,接受对立假设:。由于样本量的取值需要使得第二类错误发生的概率得到控制,因此首先需要计算第二类错误发生概率的表达式。在备择假设成立的条件下,第二类错误发生概率的计算过程如下:请注意,虽然近似服从标准正态分布,但是上式中由于接受了的假设,所以不再近似服从标准正态分布。故上式可继续化简为:其中表示标准正态分布函数。当希望减小犯第二类错误的概率时,等价于希望增加的值。通常也将定义为统计功效(Statistical
2023年10月31日
其他

群组网络霍克斯过程

2022),但这些模型的核心部分仍然是。当所有节点相互孤立(即中所有元素为0)时,差异最为明显,手动设置为0时GNHP仍然有效,但由于此时不再存在网络,社区发现不再有效。此外,最近Matias
2023年10月30日
自由知乎 自由微博
其他

深度学习:基于Pytorch的实现 | 第二章 神经网络的张量与数学基础

学习目标通过本章的学习,读者可以掌握:1、张量的概念与创建方式;2、张量的基本操作;3、张量的运算;4、神经网络的导数、偏导数基础;5、梯度与链式求导法则。导言在正式进入深度学习核心内容之前,我们需要先掌握一些有关神经网络的基础知识,这包括神经网络的张量(Tensor)基础和数学基础。由于本书全部的代码实现是基于PyTorch框架,因此有必要先了解PyTorch中常用的数据结构:张量,英文为Tensor。具体地,我们将介绍张量的基本概念以及常见的创建方式,张量的基本操作(例如索引、拼接、分割等等),张量的运算(包括单个张量与多个张量的运算)。此外,我们还将回顾与神经网络十分相关的数学基础,导数和偏导数的定义以及相关求解法则。最后,作为后面章节的铺垫,我们还将介绍梯度的数学含义。本章内容是后续章节利用PyTorch搭建神经网络的基础。本章目录第2章
2023年10月26日
其他

狗熊会案例教学线上研讨|郭旭:《应用随机过程》教学经验分享

狗熊会·案例教学线上研讨会面向高校统计学、数据科学专业教师,探讨如何通过案例增强教学效果,帮助学生将专业知识转化为解决实际问题的技能。请各位老师点击“阅读原文”获取参会方式。《应用随机过程》教学经验分享01报告信息报告标题:《应用随机过程》教学经验分享报告时间:2023-10-28
2023年10月26日
其他

郭老师统计小课堂|Harold Hotelling:一代美国统计学家的引路人

编者荐语:郭老师统计小课堂向读者介绍和分享统计学的知识、趣事、方法和思想。希望能对统计学的传播起到一定积极作用,同时也希望更多的统计同仁一起分享更多的统计知识。让整个社会都感受统计学的魅力和力量。本文转载自概率统计学会公众号。原文链接:https://mp.weixin.qq.com/s/b1HvYLz8K6Ur1uS8Kt3zkw作者王子涵是北师大统计学院2020级本科生。本文源自《应用多元统计分析》的结课大作业。让学生去了解杰出统计学家的生平和学术贡献会极大地促进学生对学科的热爱。这也是这个大作业的初衷。Harold
2023年10月25日
其他

商务统计学基础 | 第三章 假设检验:假设检验中的p.Value

点击上方"狗熊会"关注我们吧!假如在你面前有一个苹果、一个香蕉,还有一个大鸭梨。我希望你告诉我:哪个水果更“好”?请问你如何回答?你看,这是一个让人感到非常困惑的问题,没法回答。困惑产生的根本原因在于,苹果不是香蕉,香蕉不是大鸭梨,大鸭梨也不是苹果。如何相互对比谁更“好”?所以一个可能的简单答案是:不知道,我不知道是苹果更好,还是香蕉更好,还是大鸭梨更好。这个答案令人满意吗?不满意,因为这个答案回避了面对苹果、香蕉和大鸭梨时你必须做出的选择问题。现实生活中,很多时候苹果、香蕉和大鸭梨并不互为竞争关系,完全可以同时拥有,因此不用操心谁更好的问题。但是,也有很多时候,兜里只有1元钱,只能购买其中一种,没办法同时拥有,因此必须做出取舍。在这种情况下你会发现一个神奇的现象:人们最终是做出了选择的!这说明,在人们的潜意识里,其实苹果、香蕉和大鸭梨在某些指标上是可比的,而这些指标决定了谁更“好”。有哪些指标呢?也许是重量?也许是甜度?也许是卡路里?也许是香气?也许是颜值?总之,现实生活中的人们在面对相似但是并不完全相同的取舍问题时,需要一个“测量”来把看似不同的事物投影到一个统一的尺度空间,进而方便比较。同样的问题在统计学假设检验中也存在,而且大量存在。这里的苹果、香蕉和大鸭梨就是三个不同的假设检验结果。为什么会有不同的假设检验结果?产生的原因太多了,请看以下情形。情形1:同一个数据、同一个假设检验问题(例如:检验均值是否为0),可以有很多种不同的检验方法。图3.6.1总结了一些常见的用于均值(或者更严格地说是某种位置参数)假设检验的方法,包括我们学习过的Z检验,以及未学习过的Wilcoxon符号秩检验和似然比检验。这时不同的假设检验方法可能会产生不同的假设检验结果。假设两个不同的假设检验结果都能提供关于支持对立假设的证据,请问:哪一个证据更强?如果所采用的检验统计量都是Z类型的统计量(即:点估计/标准误差),那么这个问题比较好回答。哪个分析结果所对应的Z统计量的绝对值更大,哪个检验结果就更加支持对立假设一些,这似乎非常顺理成章。但是,如果一个假设检验的统计量是Z统计量,另一个是某种更加复杂的不可直接对比的统计量(例如:图3.6.1中的秩和统计量、似然比统计量),请问如何对比?请注意,这不是一个虚构的需求。假设你是一个生物制药公司,你投入巨大资源开发一款新的降压药,并完成了临床试验。你一定会竭尽全力证明这个药品是有效的。此时,对于检验均值,统计学老师告诉你有10种不同的检验方法,你会如何选择?你一定会说:都做一遍,看看哪个对自己最有利。因此,你面对一个很现实的问题,你需要把不同的假设检验结果(苹果、香蕉、大鸭梨)做一个对比,在合理合法的前提下,从中挑出对自己最有利的结果。此时你应该如何对比?也许你需要一个工具,能够把来自不同假设检验方法的假设检验结果(苹果、香蕉、大鸭梨),投影到同一个尺度空间上去,然后进行对比。请问具体应该怎么办?图3.6.1:均值的各种假设检验方法情形2:同一个数据集合、不同的数据字段,不同的假设检验问题。这怎么会发生?现实中确实会大量发生。实际工作中碰到的数据,基本上都是多指标数据。例如,表3.6.1是一个字段列表,展示了一个来自狗熊会精品案例库的北京市二手房的价格数据。其中涉及到单位面积房价等指标。这些指标中最重要的是二手房单位面积价格,研究的一个核心问题是:什么因素影响了房价,在多大程度上会影响?例如,是否有客厅(是
2023年10月24日
其他

深度神经网络的因子归一化方法

点击“蓝字”关注我们吧!亓颢博,北京师范大学统计学院师资博士后。毕业于北京大学光华管理学院商务统计与经济计量系,获经济学博士学位。主要研究方向包括统计优化算法、大规模数据统计建模、网络结构数据分析等。
2023年10月23日
其他

郭老师统计小课堂 | 统计学领域的最高成就奖和百万大奖

Societies(COPSS)总统奖是耳熟能详的。之前的文稿统计科学的过去、现在和未来对COPSS下的五大奖项有所介绍。除此之外,还有两个奖项是引人注目的。International
2023年10月20日
其他

商务统计学基础 | 第三章 假设检验:假设检验的各种推广

点击上方"狗熊会"关注我们吧!前面几节已经对假设检验的基本思想、典型的均值单边(One-Sided)和双边(Two-Sided)假设检验问题的技术细节做了探讨。今天,我们尝试将类似的思想做一些推广,探讨其他一些假设检验问题,包括:(1)双样本检验(Two-Sample
2023年10月17日
其他

基于随机投影的大规模网络社区检测算法

点击“蓝字”关注我们吧!亓颢博,北京师范大学统计学院师资博士后。毕业于北京大学光华管理学院商务统计与经济计量系,获经济学博士学位。主要研究方向包括统计优化算法、大规模数据统计建模、网络结构数据分析等。
2023年10月16日
其他

新书推荐|学习中的统计思维(Python实现)

内容简介:机器学习是人工智能的核心,而统计思维则是机器学习方法的核心:从随机性中寻找规律性。例如,利用损失最小化思想制定学习策略,采用概率最大化思想估计模型参数,利用方差对不确定性的捕捉构造
2023年10月13日
其他

郭老师统计小课堂 | 约翰·内尔德 (John Nelder)的故事

models》一书将约翰之前对于广义线性模型的工作加以扩展和建立,被视为统计经典。统计计算约翰在统计计算方面功不可没。其一,他既对算法设计有兴趣,还对涉及计算机本身的算法实现有天赋。例如,在
2023年10月12日
其他

再抽样和刀切法:计算资源有限条件下大规模数据集分析的一种方法

成立。JSE估计量对于是比率一致的,即,其中“”表示“依概率收敛”。最后,为了进行有效的渐近推断,需要研究JDS估计量和SOS估计量的渐近分布。因此,给出以下定理以建立和的渐近正态性。Theorem
2023年10月11日
其他

商务统计学基础 | 第三章 假设检验:关于均值的假设检验问题

点击上方"狗熊会"关注我们吧!前面几节已经对假设检验的基本思想、典型的均值单边(One-Sided)和双边(Two-Sided)假设检验问题的技术细节做了探讨。今天,我们尝试将类似的思想做一些推广,探讨其他一些假设检验问题,包括:(1)双样本检验(Two-Sample
2023年10月9日
其他

在线学术报告 | 张正军教授:通往精准统计推断之路所需的必要充分估计

(Yale).嘉宾介绍张正军教授现为中国科学院大学经济与管理学院长聘教授和统计与数据科学系系主任,原美国威斯康辛大学统计系终身教授和系副主任,国际数理统计协会执行委员和财务总监(July
2023年10月6日
其他

郭老师统计小课堂 | 如何知道别人有没有作弊?

抽样调查是统计学中获取数据的一种重要手段。但在一些敏感性问题的调查上,出于保护隐私等原因,被调查者可能不愿诚实作答,这就使得样本数据的真实性得不到保障,进一步甚至使得整个研究都将失去意义。比如,学校想要知道大家在某一项考试中是否存在作弊现象,如果直接调查采访那显然毫无意义,究竟应该如何设计才能成功得到真实的作弊者比例呢?本文将就这一问题展开讨论。Part1敏感性问题的概念所谓敏感性问题即指涉及到被调查者的秘密、禁忌等令其不愿回答或者不愿真实回答的问题。因此,处理敏感性问题的关键在于“获取”被调查者的信任,消除被调查者的顾虑,得到真实的数据。Part2敏感性问题的解决办法——随机化回答技术RRT在统计学中,对于处理敏感性问题,比较流行的做法是使用随机化回答技术(Randomized
2023年9月28日
其他

深度学习:基于Pytorch的实现 | 第一章 导论

学习目标通过本章的学习,读者可以掌握:1、人工智能的定义与发展历程;2、深度学习的概念与适用领域;3、深度学习与回归分析、机器学习、人工智能之间的关系;4、常见深度学习框架的适用场景;5、本书代码镜像的使用方法。导言2016年3月,AlphaGo与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜,一时间,各大媒体开始争相报道人工智能时代的到来。对于普罗大众而言,对“人工智能”最大的印象,可能来自于AlphaGo,来自人脸识别,语音识别,自动翻译等有趣应用。但是,当我们在说“人工智能”时,大多数时候是指这些应用背后的核心技术,即深度学习(Deep
2023年9月27日
其他

离线策略置信区间估计

点击“蓝字”关注我们吧!朱进,伦敦政治与经济学院统计学系的博士后,在史成春教授的指导下开展工作,目前的研究重点是强化学习。朱进在中山大学获得统计学博士学位。前言好的策略需要同时兼顾短期与长期收益。以常见的商业平台为例,向用户发放合理的优惠券从短期上来看,可以激励用户下单并减少库存并增加用户对特定平台的使用频率,从而实现长期收益。短期收益和长期收益的总和是策略累计收益。对于累计收益的充分了解,让我们对于商业策略的优劣有更明晰的洞悉。但目前,对于累计收益的认识还往往停留在主观与定性的表述。在大数据时代,如何借助已有数据量化累计收益,从而客观且精准地反映策略优劣是一个重要的问题。背景介绍:顺风车平台我们研究启发于顺风车平台上的商业策略研究。假设客户在智能手机上启动顺风车应用程序。当他们输入目的地时,平台将向用户推送折扣券。商业策略将以特定概率向用户提供优惠券。这样做的推荐的目的是(i)增加客户订购此特定乘车的机会,并减少当地司机的等待时间;(ii)鼓励客户将来更频繁使用该顺风车平台。我们注意到(i)和(ii)分别对应于公司的短期和长期利益。我们希望,在不上线给定的商业策略的情况下,通过顺风车平台上收集的数据集,评估该商业策略的累积收益。然而,实际收集到的观测数据往往受到混杂因素的影响。例如,若某地举行演唱会时,可能会导致局部区域乘客需求增加,而司机供应减少。为了应对这种情况,平台可能会采取人为干预策略,例如增加乘客的等待时间或降低乘客的乘车优惠;然而,演唱会这一混淆因素并未被记录在所收集的数据中。虽然已有一些因果推断的方法可以处理混淆因素未观测的情况,但这些方法无法处理如下两个跟实际背景息息相关的两个需求:将商业上的短期收益和长期收益效应同时纳入考量;评估累计收益估计的不确定性,为判断商业策略间是否有显著差异提供科学支撑。数据随着用户在第时刻发起打车请求,平台会收集用户请求的状态信息,,包括:订单的行程距离以及订单发起位置的供需平衡度量。基于请求的状态信息,平台会有一定的可能性向用户提供
2023年9月25日
其他

【直播回放】开学第一课 | 王汉生教授:统计学-从不确定性到人工智能

中文摘要统计学是什么?统计学研究的是什么?统计学研究的是统计吗?统计学与大数据人工智能什么关系?这是本次报告想跟你分享的有趣问题。通过这个报告,你会了解到,统计学研究的压根就不是你所理解的那个"统计",你会发现统计学是一个系统规范全面研究不确定性的学科。为什么要关注不确定性?人世间所有的悲欢离合全部都在不确定性之中,这也许就是古人长叹的“世事无常"。不确定性之于个人,企业,国家,都是不可避免的不可回避的重要问题,而统计学全面系统地研究它,这样的学科独具魅力!而本次报告,我们将开启一个神奇的旅程,从不确定性出发,途经对不确定性的概率描述,统计推断,并通过回归分析的方法洞察不确定性中的确定性,然后抵达人工智能的美好彼岸!嘉宾介绍王汉生,北京大学光华管理学院商务统计与经济计量系,教授,博导。国家杰出青年基金获得者,教育部长江学者特聘教授,全国工业统计学教学研究会青年统计学家协会创始会长,美国数理统计协会(IMS)Fellow,美国统计学会(ASA)Fellow,国际统计协会(ISI)Elected
2023年9月19日
其他

数据委携手狗熊会,谱写数据分析人才培养新篇章

2023年3月全国两会期间,数字经济成为话题之一,如何健全数据要素市场安全长效运行机制,激活数据要素价值、统筹推进数字经济高质量发展,加快建设数字中国,构筑国家发展新动能新优势,成为关键内容。根据《国务院机构改革方案》第八项内容,国家数据局正式获批成立。数字中国建设的浪潮推动了对数据分析人才的强烈需求,他们的专业技能和洞察力将在各个领域发挥关键作用,助力中国实现数字化目标,并促进经济和社会的可持续发展。因此,培养和吸引更多的数据分析人才已成为中国数字化战略的重要一环。为积极推动数字中国建设,培养更多的数据分析专业人才,中国商业联合会数据分析专业委员会(简称数据委)携手狗熊会,在数据分析人才培养方面开展全面合作,共同谱写数据分析人才培养新篇章。“数据委”是谁?中国商业联合会数据分析专业委员会,英文缩写CDAC,简称“数据委”。其成立于2008年4月,是经国务院国有资产监督管理委员会审核同意、中华人民共和国民政部正式批准和登记的中国数据分析行业组织。数据委是中国商业联合会下设的专业委员会(官网:http://www.chinacpda.org/),也是中国最早设立的数据分析专业协会。数据委坚持走专业型、靠专业推动市场的发展,坚持初心,培养专业的数据分析人才。践行15年,连续被中国商业联合会评为优秀分支机构。数据委*历史发展数据委*人才培养数据委以CPDA数据分析师认证为依托,目前已培养了数万名数据分析人才,建立了百余所专业的数据分析师事务所,分布在全国各地,为政府、行业、企业(IT、金融、医疗、零售、物流、通信、制造、互联网等领域)提供着决策支持和技术服务。CPDA数据分析师不仅是中国大数据专业技术人才认证、更是服务于中国大数据时代,具有广泛的社会认知度和权威性,无论是地方政府引进人才、公务员报考、各大企业选聘人才,还是招投标加分,都有“CPDA数据分析师”认证的身影。CPDA数据分析师认证中国商业联合会数据分析专业委员会颁发的《CPDA数据分析师证书》是中国数据分析行业高度认可的、具有从业特征的证书,此证书是申请成立数据分析师事务所的必备条件,是具备在政府和企业中从事专业数据分析工作能力的体现,是广大政府引进大数据人才的重要参考依据,是承接数据分析业务被市场认可的证书。由工业和信息化部教育与考试中心颁发的《数据分析师职业技术证书》,是国家权威考试机构考核颁发的专业证书。两本证书代表了CPDA数据分析师得到行业主管单位和主管部委认证机构的认可。二十年来,CPDA的证书获得者几乎都已经是政府,企业的中高层管理者,证书在行业的权威性可想而知。是中国目前数据分析业界最有价值的证书体系。正是因为国策的宏观大趋势,企业的中观竞争生存转型需求。CPDA从2003年至今的20年中,得到了各级政府,企业的高度认可。在全国多个城市、省份的公务员招聘、企业招投标、高级人才评定、企业认定的相关政策中都有CDPA的身影。CPDA就业价值数据分析师是当前全球人才市场上非常紧缺的人才之一,根据相关报告显示,全球数据分析师的需求每年以20%的速度增长。在我国,根据智联招聘的数据,全国数据分析师的招聘需求每年增长超过30%,并且薪资水平明显高于其他岗位。在我国一些顶尖的互联网公司,数据分析师的薪资也是非常的可观,会高出同级别岗位的20%或者是30%左右。马云曾表示:“未来三十年数据将取代石油,成为强大的能源。”大量岗位需要具备「数据分析」能力,像互联网公司的产品经理、新媒体运营、活动策划、用户研究等岗位也给出“具备数据分析能力”这样的招聘条件。掌握数据分析能力=更多的岗位机会!CPDA数据分析师是全科型破题人才,具备数据认知能力、数据处理能力、数据化思维能力、数据呈现能力、数据决策能力、计算机及数据分析信息技术、企业实战能力,通过大数据思维从宏观规划、微观/细分市场分析、方案执行和策略部署等诸多方面为企业带来价值。中国商业联合会数据分析专业委员会设立[大数据人才库],旨在科学整合大数据人才资源,帮助行业人才进行职业规划上的全面指导。同时帮助广大企业推荐优秀人才,实现用人单位和行业人才间的高效匹配,优化人力资源配置。沙龙预告想更多的了解数据分析类人才的职业发展吗?想知道大学阶段应该做哪些准备吗?欢迎关注数据委和狗熊会联合举办的数据分析人才职业发展沙龙第一期。沙龙主题:职业规划,从大学开始筹谋沙龙时间:9月20日晚19:00-20:30主讲嘉宾:刘金忆,江苏经贸职业技术学院数字商务学院实训中心主任,高级实验师,高级工程师,中国商业联合会数据分析专业委员会讲师。主持或参与市厅级以上课题6项并已结项,发表省级以上学术论文10余篇,副主编教材2部;获授权发明专利2项,实用新型专利2项;参加或指导数据分析相关技能大赛获奖10余次。将多年物联网、大数据相关上市公司的工作阅历结合到课程教学中,着重培养学员的大数据分析思维与能力。林新宏,衣恋集团总部新零售CRM负责人,毕业于山东财经大学统计学院经济统计学。参与方式:数据委视频号
2023年9月18日
其他

开学第一课 | 王汉生教授:统计学-从不确定性到人工智能

中文摘要统计学是什么?统计学研究的是什么?统计学研究的是统计吗?统计学与大数据人工智能什么关系?这是本次报告想跟你分享的有趣问题。通过这个报告,你会了解到,统计学研究的压根就不是你所理解的那个"统计",你会发现统计学是一个系统规范全面研究不确定性的学科。为什么要关注不确定性?人世间所有的悲欢离合全部都在不确定性之中,这也许就是古人长叹的“世事无常"。不确定性之于个人,企业,国家,都是不可避免的不可回避的重要问题,而统计学全面系统地研究它,这样的学科独具魅力!而本次报告,我们将开启一个神奇的旅程,从不确定性出发,途经对不确定性的概率描述,统计推断,并通过回归分析的方法洞察不确定性中的确定性,然后抵达人工智能的美好彼岸!嘉宾介绍王汉生,北京大学光华管理学院商务统计与经济计量系,教授,博导。国家杰出青年基金获得者,教育部长江学者特聘教授,全国工业统计学教学研究会青年统计学家协会创始会长,美国数理统计协会(IMS)Fellow,美国统计学会(ASA)Fellow,国际统计协会(ISI)Elected
2023年9月17日
其他

狗熊会开学季|狗熊会开学第一课来啦!

亲爱的小伙伴们,狗熊会开学第一课再次与小伙伴们见面啦!9月17日晚8点,北京大学的王汉生教授将为大家送上开学第一课《
2023年9月14日
其他

商务统计学基础 | 第三章 假设检验:为什么推翻原假设

点击上方"狗熊会"关注我们吧!通过前面的学习我们了解到,人生会碰到大量带有不确定性的决策问题。面对这样的问题,我们需要做出二选其一的决策,而支撑该选择决策的是两个互相对立的假设。由于不确定性的存在,无论做出哪种选择,都存在犯错误的可能性,而这会产生两种不同的错误。对于绝大多数问题而言,这两种错误带给决策者的损失是非常不同的,一种特别严重,我们称其为第一类错误(Type
2023年9月12日
其他

基于时空变系数模型的台湾呼吸系统疾病研究

点击“蓝字”关注我们吧!陈天雷,中南大学数学与统计学院统计学2020级本科生,中国人民大学统计学院流行病与卫生统计学2024级研究生。今天跟大家分享的是一篇发表于2022年Biostatistics的文章,文章提出了一个时空疾病制图模型,以研究台湾地区与呼吸系统疾病医院就诊率之间的关联。Wang,
2023年9月11日
其他

商务统计学基础 | 第三章 假设检验:两种不同类型的错误

点击上方"狗熊会"关注我们吧!前面提到,统计学假设检验理论关注的核心问题是:带有不确定性的决策问题。本章所关注的决策问题特指一类非常特殊的决策问题,那就是决策者面前有且仅有两个不同的选择。为讨论方便起见,不妨称这两个选择分别为:选择A和选择B,简称A和B。不同的选择一定对应着不同的假设。例如,当一个女生获得了男生的追求时,该女生会面临两个选择,选择A可能是:尝试跟该男生交往;而选择B是:不尝试。如果该女生选择A,那么她背后隐含着一个假设:这个男生不错,也许值得尝试。同理,如果该女生选择B,那么她背后也隐含着一个对立的假设:这个男生可能不太靠谱,也许不值得尝试。由此可见,当人们面对二选其一的决策问题时,之所以做出不同的选择,其根本原因是人们做出了不同的假设。人们选择相信哪一个假设,就会做出相对应的选择,并形成相对应的决策。但是,因为有不确定性存在,无论如何选择、如何决策,都存在犯错误的可能性,并承担因此带来的后果。下面还是以恋爱为例,讨论决策者(某年轻人)可能会犯什么错误。第一种情况是,该年轻人假设对方不错(假设A),并决定跟他交往,但是却发现真实情况是:对方是一个非常糟糕的人(假设B)。这时他或者她犯的错误是:选择相信假设A成立,但是实际情况是假设B成立,这是一种错误。第二种情况是,该年轻人假设对方不太靠谱(假设B),并决定不和他交往,但是真实情况是:对方非常优秀(假设A)。这时他或者她犯的错误是:选择相信假设B成立,但是实际情况是假设A成立,这又是另外一种错误。请问:这两种不同类型的错误,带给决策者(该年轻人)的损失是否一样?如果损失完全一样,也许就不需要太高深的决策方法论(例如:统计学假设检验理论),只要极小化整体犯错误的概率就可以了,而不用担心哪种犯错的可能性更大。但是,如果损失不一样,其中一种错误的损失比另外一种大很多呢?如果是这种情况,决策问题就会相对复杂一些。在这种情况下,决策者应尽量避免犯损失更加惨重的错误。但是天下哪有免费的午餐?为此,决策者往往愿意也必须付出一定的代价,那就是,置另外一种错误发生的可能性于不管不顾的状态。请问聪明的你,对这样的决策方式陌生吗?答:一点都不陌生。接下来将通过一系列的案例故事向你阐述说明,对于这样的决策方式,你其实早已习以为常!案例1:恋爱。还是以前面提到的恋爱案例为例,故事中的年轻人面临二选其一的决策问题。在没有充分了解对方的情况下,对方的人品是未知的,具有不确定性。因此无论他或者她做出哪一种选择,都有可能犯错误。错误的情况有两种。第一种错误是:看走眼。假设对方很不错(假设A),但是发现实际情况是对方很糟糕(假设B),产生的后果是在一个很糟糕的人身上浪费时间。第二种错误是:错失真爱。假设对方不靠谱(假设B),但实际情况是对方很优秀(假设A),产生的后果是错失真爱,非常遗憾。请问:哪一种错误带来的损失更大?按小说和电影电视里的说法,也许错失真爱是天大的遗憾,为此男女主角爱得死去活来,骗得善良的你眼泪汪汪。如果是这样,年轻人的决策规则应该是:只要是恋爱,都应该勇于尝试,除非有证据证明对方很糟糕。但这可能是浪漫小说和影视作品里的虚构情节。在现实生活中,也许更多理性的普通人会认为,与错失所谓的“真爱”相比,在糟糕的对方身上浪费时间是一件更糟糕的事情。只要自己积极向上,优秀的“对方”多的是,错过一个“真爱”,也一定还有更好的“真爱”等着自己。因此,现实生活中更常见的决策规则会是:除非有证据证明对方很优质,否则不会轻易尝试交往。请问:你会更支持哪种看法?不论你支持哪一种看法,你都会体会到,两种不同的错误带来的损失很不相同,而且你会本能地优先规避你认为损失更大的那一种错误。你看,这是不是一种你已经习以为常的决策方法?案例2:求职。当求职者面临一份工作的机会时,就需要决定接受还是拒绝这份工作。假设一名毕业生拿到了某家互联网大厂的offer,他就面临着二选其一的决策问题:要不要进入这家互联网大厂工作?选择进入背后隐含的假设是这份工作是一份理想的工作(假设A),选择不进入背后隐含的假设是这份工作不是一份理想的工作(假设B)。在正式入职之前,工作内容、团队氛围、上升空间等等都是具有不确定性的,因此求职者有可能会犯错误。可能会犯的错误有两种。第一种错误是:得到不理想的工作。求职者相信这是一份理想的工作(假设A),于是选择进入这家互联网大厂,但工作后发现工作内容单调机械、团队氛围很差、上升空间小,并不是自己想要的工作(假设B)。第二种错误是:错过理想的工作。求职者认为这家互联网大厂的工作不是一份自己理想的工作(假设B),于是拒绝了这个工作机会。但后来他从接受了同样offer的小伙伴那里得知,这份工作能够让人发挥自己的创造力、团队氛围和谐、上升空间大,正是自己梦寐以求的工作(假设A)。两种错误的损失哪个更大呢?第一种错误让这位毕业生得到了一份并不理想的工作,而第二种错误让求职者错过了一个很好的工作机会。也许有人会认为第一种错误,即得到不理想工作的损失更大,因为不值得在一份没有成长的工作上浪费时间。相反,也许会有人认为第二种错误,即错过理想的工作带来的损失更大,因为好的工作机会非常难得,错过这个村就没这个店了,因此应该勇于尝试。不论你支持哪一种看法,你都会体会到,两种不同的错误带来的损失很不相同,而且你会本能地优先规避你认为损失更大的那一种错误。你看这是不是一种你已经习以为常的决策方法?案例3:求学。每年夏季,北京大学光华管理学院都会如火如荼地开展优秀大学生夏令营活动,通过保研招募优秀的大学生。遗憾的是,教学资源有限,因此招生名额有限,所以筛选与淘汰就不可避免。为此,夏令营中设置有笔面试考核。遗憾的是,不是所有同学都能够通过考核。如果能够通过考核,并且获得本校的推免资格,才有可能被预录取。如果你是一名有志于进入北大光华深造的大三学生,你面临的二选其一的决策问题是:申请夏令营还是不申请?如果你选择申请,那么背后隐含的假设是,你有可能通过夏令营考核并且获得本校的推免资格,从而成功上岸北大光华(假设A)。如果你选择不申请,那么背后隐含的假设是,你能成功保研到北大光华的可能性极低(假设B)。由于结果的不确定性,无论做哪种选择,你都可能会犯错误。可能犯的错误有两种。第一种错误是:高估自己。你假设自己能够成功通过夏令营的考核并最终获得入学资格(假设A),但是毕竟竞争残酷,最后你未能如愿以偿(假设B)。第二种错误是:低估自己。你假设自己成功的可能性极低(假设B),所以没有申请夏令营,但你最后发现综合实力还不如你的小伙伴成功上岸了(假设A)。这两种错误哪一种损失更大呢?第一种错误高估自己,能给你带来什么损失呢?答:几乎没有任何损失。虽然准备申请材料和笔面试花费了不少时间,但相信为申请而做出的各种准备会给你带来其他的益处。但是第二种错误低估自己带来的损失可能就严重许多。这种错误会让你错失一次到北大光华攻读研究生的机会,除非你有一个更好的求学机会。由此可见,两种错误带来的损失大小完全不同。高估自己所带来的损失很小,而低估自己所带来的损失很大。因此,对大多数同学而言,都应该尝试申请北大光华的夏令营。你看这是不是一种你已经习以为常的决策方法?案例4:精准广告。广告投放是各大互联网平台盈利的重要途径之一。以今日头条为例,它依靠大数据算法,根据用户的浏览历史等信息,分析用户的兴趣分类,向用户进行广告的精准投放。开屏广告是一种常见的广告展示形式。当用户打开今日头条APP时,今日头条就获得了一个展示广告的机会。这时候今日头条是否要向用户展示某款商品的广告呢?今日头条面临着二选其一的决策问题:投放还是不投放?选择投放背后隐含的假设是,用户对该商品感兴趣,因此有很大的可能性产生点击或购买(假设A)。选择不投放背后隐含的假设是,用户对该商品不感兴趣,因此产生点击或购买的可能性极低(假设B)。用户的兴趣具有不确定性,因此今日头条无论做哪种选择,都可能会犯错误。错误的情况有两种。第一种错误是:骚扰用户。如果今日头条假设用户对该商品感兴趣(假设A),并因此向用户展示了广告,但实际上用户对该商品不感兴趣(假设B),那么就对用户造成了骚扰。第二种错误是:错失广告机会。如果今日头条假设用户对该商品不感兴趣(假设B),因此放弃了向该用户展示广告的机会,但实际上用户正好需要这类型的商品(假设A),但由于没有看到广告,可能去购买了其他替代产品。两种错误的损失很不一样,哪一种损失更大呢?第一种错误对用户造成了骚扰,但对今日头条而言似乎没有立刻明显的损失。从长期来看,过度骚扰用户会影响用户的产品使用体验,进而影响用户活跃度与留存率,今日头条对此一定也会有慎重的考虑。但是从短期看,似乎不会产生太大的损失。但是第二种错误则让今日头条损失了一笔立刻可得的广告收入。请问哪种损失更大?根据彭博社消息,2020年,今日头条所属公司字节跳动的广告收入为1831亿元,占实际收入的77%。因此,损失广告收入对公司而言是不可承受的损失。所以今日头条的决策规则可能是,除非有足够的证据证明用户对商品不感兴趣,并因此决定不骚扰用户,否则一定选择展示广告。这个道理不仅适用于今日头条,还适用于其他互联网平台。造成的后果就是,广告在互联网平台中随处可见,用户被大量骚扰。你看这是不是一种你已经习以为常的决策方法?案例5:信贷风控。随着互联网金融的发展,互联网消费信贷已成为一种越来越常见的信贷形式,其特点是以个人消费为目的、无抵押、无担保、额度小、期限短等。仍然以上一节提到的蚂蚁花呗为例。假如一名用户提出了开通蚂蚁花呗的申请,那么蚂蚁花呗平台就面临着二选其一的决策问题:批准还是不批准?批准背后隐含的假设是,用户使用蚂蚁花呗后能够按期归还本息(假设A);不批准背后隐含的假设是,用户不能按期归还本息(假设B)。由于用户能否按期还贷具有不确定性,不管蚂蚁花呗平台是否批准,都有可能会犯错误。可能犯的错误有两种。第一种错误是:高估用户还贷能力。这种情况指的是,蚂蚁花呗平台相信用户借钱后能够按期归还本息(假设A),因此批准了开呗开通申请,但结果用户未能按期归还本息(假设B)。在这种情况下,蚂蚁花呗承受的损失是本金加利息。第二种错误是:低估用户还贷能力。这种情况下,蚂蚁花呗平台认为用户不能按期归还本息(假设B),不予批准开通申请,但事实上用户具有按期归还本息的能力(假设A)。在这种情况下,蚂蚁花呗将错失一个优质用户,并因此错失相关的利息收益。这两种错误的损失哪一个更大?第一种错误导致蚂蚁花呗损失了借出的本金(例如100元)加利息(例如10元),第二种错误导致蚂蚁花呗损失了潜在的利息收入。两种错误的损失很不一样,对比一下,显然第一种错误的损失更大。第二种错误承受的损失其实很小,甚至没有。因为在很多情况下,稀缺的可能是资金,而不是申请人。错失的申请人很容易被其他甚至更加优质的申请人替代。因此,蚂蚁花呗可能会谨慎审核申请人。你看这是不是一种你已经习以为常的决策方法?案例6:电话销售。相信大家都接到过推销电话,电话那头的推销员会询问你是否需要他们公司的产品或服务。电话销售之所以能成为一种经久不衰的销售形式,与我国极高的电话普及率有关。截至2021
2023年9月7日
其他

狗熊会开学季:新学期,从这些数据科学系列书籍开始

开学啦!新学期,新目标,新挑战!亲爱的小伙伴们,你们都准备好了吗?在新学期开始之际,为了帮助同学们更好地规划学习生活,游刃有余地去迎接各种挑战,狗熊会将为大家陆续送上数据科学专业的学习“锦囊”,和您一起开启学习之旅!今天,我们为大家送上狗熊会结合多年教学和实战经验推出的14本数学科学系列书籍。这些书有的已经被一些高等院校数据科学相关专业作为教学的通用教材,有的已经成为了企业继续教育的培训教材,同时也是很多小伙伴们拓宽视野、增强实战能力的自学用书。01《数据思维:从数据分析到商业价值》作者:王汉生这是一本非常有特点的数据科学入门专著,熊大用通俗易懂的语言,表达出数据科学中非常深刻的道,即“朴素的数据价值观”,利用数据思维结合具体的业务场景,将数据转化为成为可感知的商业价值。全书围绕三大方面的内容进行阐述。第一,讲数据和价值。第二,谈回归分析,这是统计学在数学技术上的手段,是“术”的层面;更高层面是“道”的层面,把业务问题定义为数据可分析问题,这是特别重要的方法论。最后,通过大量案例来分析“数据模型是如何产品化的”。本书同时也是一本商业分析领域入门专著,既适合大学数据科学相关专业教学和学习参考使用,也适合数据分析师、工程师、产品经理、销售人员、业务拓展人员及企业高管等阅读。02《商务统计学基础》作者:王汉生、王菲菲在大数据时代背景下,统计学作为数据分析领域的基础,被应用于各行各业,其方法发挥着重要作用。为了更广泛地普及统计学知识,培养更多的统计学人才,本书应运而生。作为入门图书,本书内容安排如下。第1章从不确定性出发,讲述统计学和不确定性的关系,以及统计学中用于描述不确定性的各种概率模型。第2章是参数估计,系统讲述统计学中矩估计和极大似然估计两种常用的参数估计方法,并基于两种方法介绍各种常见概率分布中参数的点估计和区间估计。第3章是假设检验,先从不确定性的角度探讨实际中的各种决策问题,帮助读者理解假设检验的思想和应用场景,然后系统介绍假设检验的方法论及各种常见推广。第4章是回归分析,先介绍回归分析的思想和广泛的应用场景,然后系统地介绍各类常用模型,从线性回归到广义线性回归,
2023年9月6日
其他

基于高斯随机扰动的渐近协方差估计

(2019))。这是因为向量可以自然地分解成不同的元素,这些元素可以由不同的计算机分别同时处理,这使得向量形式方便进行并行计算。带有干扰参数的M-估计量的渐近协方差我们接下来考虑具有干扰参数的
2023年9月4日
其他

郭老师统计小课堂 | 如何用同一组数据论证两个相反的结论?—辛普森悖论

郭老师统计小课堂向读者介绍和分享统计学的知识、趣事、方法和思想。希望能对统计学的传播起到一定积极作用,同时也希望更多的统计同仁一起分享更多的统计知识。让整个社会都感受统计学的魅力和力量。注:本文是郑泽靖和靳昌翰两位同学对辛普森悖论的介绍。连续四年的骑勇大战想必是近年来让NBA球迷印象最深刻的系列赛之一。在某场比赛中,骑士队詹姆斯和勇士队库里的两分球和三分球命中率如下表所示[1]:球员詹姆斯库里两分球命中数114两分球出手数207两分球命中率55.00%57.14%三分球命中数18三分球出手数317三分球命中率33.33%47.06%总命中数1212总出手数2324总命中率52.1750.00%可以看出,詹姆斯的两分球命中率和三分球命中率都是低于库里的,但是总投篮命中率却高于库里!为什么库里的总命中率会低于詹姆斯呢?这个问题的答案早在1951年,就由英国统计学家E.H.辛普森进行了回答。人物生平Edward
2023年8月30日
其他

商务统计学基础|第三章 假设检验:不确定性与决策

点击上方"狗熊会"关注我们吧!从本节开始,我们将开启一个全新且重要的内容:假设检验。作为一位有多年执教经验的老师,有一个很深的体会,那就是:假设检验不好教,很不好教!假设检验的整个思维方式,似乎跟普通人的思维方式非常不同。因此,学生们学习理解起来非常困难。事实上,我不是唯一一个碰到这个挑战的统计学老师。很多其他同仁也有类似的困惑。这不禁让我们深深思考:这是为什么?这个问题应该如何解决?传统的教学方式习惯于把假设检验问题看作一个严谨的数理统计学理论,并用严格的数学理论去理解它。显然,这种教学方式的优点是理论严谨,但缺点是教学效果并不令人满意,否则就不会有众多的老师感慨假设检验不好教,众多的学生感叹假设检验不好学。究其原因,也许是这种传统的教学方式忽略了假设检验背后朴素但深刻的统计学思想。通过对本章内容的深入学习,你会发现,其实假设检验的统计学思想很朴素,因为:事实上绝大多数普通人(不管是否学过统计学假设检验方法),都是这样思考问题并做出决策的;而统计学的主要贡献仅仅是把这种朴素的思想方法,用严格的数学工具给规范了出来。假设检验的统计学思想很深刻,因为:通过它的严格规范化,人们习以为常的决策规则可以获得一个全新的提高与优化。但是,很遗憾的是,纵观国内外的统计学教材,与假设检验相关的内容都是:关于数理统计学理论的讨论非常充实,但是关于这背后灼灼生辉的统计学思想讨论甚少。这是一个巨大的遗憾,而且副作用明显。一种具体的副作用就是:学生们感觉统计学假设检验的方法论太奇葩,不好懂,也没法用。因此,我们将在这里做一个大胆的尝试,即首先从假设检验的统计学思想入手,尝试通过非常充足的文字篇幅,用一个又一个案例小故事,把假设检验的统计学思想先讨论透彻。整个过程几乎不涉及任何数学理论。在充分理解统计学思想的前提下,再用严格的数理统计学理论予以规范化,希望这样能有助于大家更好地理解学习并掌握假设检验理论.对假设检验统计学思想的介绍从哪里开始呢?答:从不确定性开始,从带有不确定性的决策问题开始。关于不确定性,前面已经有了大量的讨论。本节将重点探讨每个案例中关注的“决策问题”是什么。纯粹从字面上来看,关于“决策问题”可能有多种解释。但是,本书所关注的“决策问题”是一类高度简化的决策问题,如果用一句话概括那就是:一个二选其一的决策问题。请注意,这里有几个要点。要点1:这是一个二选其一的问题,不能是三选其一,也不能是四选其二,只能是二选其一。要点2:这是一个决策问题。所谓决策问题就是:你必须从两个可能的选择中挑选一个,“不选择”或者“不决策”这个状态是不允许存在的。显然,这两个要点限制了我们的理论框架,因为现实世界中一定有多选其一的问题存在,也一定有“不选择”或者“不决策”这个状态存在的时候。但是,这些情况要么不是典型情形,要么可以通过一定数学变换,变成一个或者多个等价的二选其一的决策问题。因此,经典统计学理论所关注的假设检验问题一定是一个:二选其一的决策问题。接下来,为了能够跟大家很好地探讨这个问题,我们将对本书第一节“从不确定性出发”中的几个案例,从带有不确定性的决策问题的角度再重新讨论一下。案例1:恋爱。恋爱是绝大多数人都会经历的美好记忆。年轻人通过恋爱这个美好的过程尝试在芸芸众生中寻找那个唯一正确的人。在你的学习、工作、还有生活中,会有无穷多的机会接触到年龄相仿的异性,可能男生对女生有好感,也可能是女生对男生有好感。当年轻人面对恋爱机会的时候,无论是男生还是女生,都面临一个二选其一的决策问题:是否要与对方交往,并尝试通过交往获得进一步的了解和认识。那么能否不做选择呢?显然不可以,因为没有中间状态。当然,在现实生活中,有可能某一方出于礼貌的考虑跟对方说:我需要再考虑一下。但这其实就是婉拒,其实就是拒绝。当然,也可能双方都对彼此非常有好感,因此决定尝试交往一下,这种情况下皆大欢喜。由此可见,面对恋爱机会的时候,年轻人只有两个选择,必须二选其一,没有中间状态。请问如果是你应该如何决策?案例2:求职。职业选择的过程充满了各种各样的决策。上世纪父辈们求职时面对不同用人单位,需要做出的决策可能是:是否去物资局?是否去邮政局?是否去税务局?是否去银行?如今,年轻人们求职的过程中面临着更加丰富和多元的职业选择,需要做出的决策可能是:是否去互联网大厂?是否去国有企业?是否去外企?是否应该考公务员或是进入高校任教?面对如此丰富的可能性,求职者很容易陷入迷茫,是否能够不选择呢?显然不可以!因为无论你的决定是去A公司,B公司,C公司,还是不就业躺平,这都是选择。整个决策过程可以规范成一系列的二选其一的决策问题。例如,第一个决策问题可能是:要不要去A公司上班?只有两个选择:去或是不去,没有中间状态(请注意:兼职也是去上班)。同理,要不要去B公司上班是另一个二选其一的决策问题,而要不要去C公司上班还是一个二选其一的决策问题。如果对ABC三个决策问题的选择都是不去,那么最终你的选择是躺平不上班。当然对本案例而言,ABC三个决策问题并不互相独立。例如,你一旦选择去A公司全职上班,就不能去B公司全职上班。但无论怎样都改变不了问题的本质,那就是你将面临大量的二选其一的决策问题。请问如果是你应该如何决策?案例3:求学。求学是人生的重要经历,初中升高中、高中升大学、大学毕业申请研究生都是求学的关键节点。在国民受教育水平不断提升的当下,求学的过程更加受到关注。据教育部统计,2021年全国普通高考报名人数为1078万,而全国普通高校毕业生总规模达到909万,对每年成百上千万的学子而言,求学也是由一系列二选其一的决策问题组成的。例如对于一个学习统计学的本科生而言,本科毕业后选择就业还是读研是第一个二选其一的决策问题。如果决定读研,是应该读专硕(例如商业分析专硕)或者读博(例如统计学博士研究生)又是一个二选其一的决策问题。在申请研究生的过程中,是选择保研,还是选择参加全国研究生入学考试?如果选择了保研,是否要参加对应项目(例如北大光华商业分析专硕)的夏令营考核?这还是一些二选其一的决策问题。由此可见,整个求学过程充满了大量的二选其一的决策问题,每一个决策问题都必须二选其一,没有中间状态。请问如果是你应该如何决策?案例4:精准广告。精准广告是一种重要的广告方式。它通过对网民行为数据的深度分析,帮助广告主精准锁定目标用户,针对性地投放广告。一类典型的精准广告是DSP(Demand-Side
2023年8月29日
其他

基于随机划分的小批次动量梯度下降法

点击“蓝字”关注我们吧!高原,博士毕业于华东师范大学统计学院,现为北京大学光华管理学院博士后,主要研究方向包括统计机器学习、统计计算的方法与理论。(封面为今年刚去世的俄罗斯数学家Boris
2023年8月28日
其他

C.R.Rao:统计学的一百年

Rao这位百岁老人的传奇人生。他的一生经历了Pearson,Fisher也经历了大数据和人工智能。他的一生就是统计学的一百年。Rao现在还健在,他将继续见证统计学的第二个一百年!1.
2023年8月24日
其他

商务统计学基础|第二章 参数估计:样本量计算

点击上方"狗熊会"关注我们吧!在前面几节的讨论中,我们都是在固定样本量的情形下研究如何进行参数估计和区间估计。我们获得一个结论:样本量越大,估计量就越准确,这会表现在置信区间的长度上。具体而言,在一定的置信水平下,置信区间的长度会随着样本量的增加而减小。这说明,样本量影响着参数估计的准确性。从准确估计的角度出发,当然是样本量越大越好。但是,样本量的增大也意味着成本的提升。学习到现在,你有没有发现一个神奇的规律?也就是说,绝大多数(不是所有)合理定义的估计量,它的方差都是以1/n的速度收敛到零。这说明,它的标准误差(Standard
2023年8月23日
其他

融合机构与研究兴趣的统计学者合作者网络链路预测研究

点击“蓝字”关注我们吧!宋熙卓然,中央财经大学统计与数学学院本科生,复旦大学管理学院硕士生。今天跟大家分享的是合作者网络的链路预测研究,原论文:Song,
2023年8月22日
其他

狗熊会课程思政与案例教学研讨会 | 主题报告

随着数据科学的快速发展,统计学的教学面临着越来越大的挑战。狗熊会一直坚持将实际业务场景落地,开发成相关的教学案例,用于日常的教学实践。过去三年,狗熊会一直坚持举办线上案例教学分享活动,得到了许多老师和同学的大力支持。今年,狗熊会重启线下案例教学研讨活动,诚邀新老朋友相聚!狗熊会将于2023年8月25日举办课程思政与案例教学研讨会,目的在于提升高校教师的课程思政水平、促进案例教学的应用与实践。本次研讨会由狗熊会主办,西安欧亚学院承办。会议邀请了来自华东师范大学、上海财经大学、西南财经大学、中国人民大学、中央财经大学等高校老师分享课程思政和案例教学的研究成果和实践经验,为老师们搭建一个线下互动和交流的平台。时间地点时间:2023年8月25日地点:西安·西安欧亚学院校内费用:1980元/人,交通和食宿自理,提供会议协议酒店,需要的老师可以提前预定研讨会日程报告主题潜心立德树人,构建课程思政新格局报告摘要报告通过课程思政建设背景介绍,强调立德树人是高校教育的根本任务。报告围绕如何开展课程思政建设学习以及实践,围绕上财统计学科如何开展课程思政建设以及所取得的成果展现,并分享一些有益可行的建设方案包括上海市课程思政指南编制过程等。有助于加强社会主义核心价值观教育,培养全面发展的一流统计人才。报告人介绍吴纯杰,上海财经大学教务处副处长、教授、博士生导师。研究领域为应用统计和政府统计,在统计过程控制、市场满意度测评、客户流失分析和金融建模等方面开展研究工作。发表高质量论文40余篇,主持完成国家自然科学基金项目2项和国家统计局重大项目1项;上海市精品课程、课程思政示范课程、示范教学团队和国家级一流本科课程《数理统计》负责人,国家级一流统计学专业建设点负责人,主持完成上海市重点课程1项和承担上海市教学项目3项,获得上海市教学、科研奖3项;指导学生作品获得“挑战杯”全国一等奖、上海市特等奖2项和二等奖,全国统计建模大赛二等奖、三等奖,SAS高校数据分析大赛冠军2项、季军3项和四强1项,“知行杯”上海市二等奖和三等奖等。报告主题统计学课程思政经验分享报告摘要本报告将主要从华东师范大学统计学课程思政建设思路和举措、统计学课程思政的理念、策略和抓手等方面进行介绍,探讨课程思政的具体举措,分享课程思政的案例等。本报告还将简要介绍统计学课程思政虚拟教研室的情况和未来建设思路。报告人介绍周迎春,
2023年8月20日
其他

精彩推文集锦

点击上方“狗熊会”,发现更多精彩。大家好,狗熊会一路成长到今天,能够在数据科学相关的内容创作上有一些小小的积淀,离不开各位熊粉的支持和陪伴,在此对大家表示衷心的感谢!我们为大家梳理了部分精彩推文,方便大家查阅,也欢迎各位熊粉在内容创作上给我们提出您的宝贵意见!NO.1网络结构数据Historical
2023年8月19日
其他

商务统计学基础 | 第二章 参数估计:其他分布参数的区间估计

点击上方"狗熊会"关注我们吧!在前面几个章节中,我们以正态分布为例,学习了如何对正态分布的均值和方差进行区间估计,从中可以看到对不同参数进行区间估计的重要性。与点估计相比,区间估计最大的特点就是能够在一定程度上反映估计量的精确程度。在给定置信度的前提下,估计精度越高,置信区间的长度就越小,反之亦然。因此,区间估计是一个非常有用的统计学工具,需要熟练掌握。但是,实际工作中,除了正态分布以外,还常常会碰到很多其他的重要分布(例如指数分布、0-1分布、泊松分布),它们也常被用于描述不同事件的不确定性。同理,对这些分布中的参数进行估计同样十分重要。本节就将重点讨论如何对常见分布的参数进行区间估计。首先考虑几个典型应用场景。案例1:直播间滞留时长。如今电商的发展不仅仅局限于传统电商的销售模式,电商内容化、社交化已成为新趋势。直播带货已经成了一种非常重要的电商形态,它具有互动性强、能够直观展示商品等特点。直播带货吸引了大量消费者,创造了大量销售额,并且市场规模不断扩大。以一家汽车品牌4S店的直播间为例,在一定时间内,不停地有新观众进入直播间,同时有老观众离开。对于任何一个观众而言,他在直播间内的滞留时间都是非常有限的,不可能太长。显然直播间的运营方非常希望用户的滞留时间越长越好,因此非常关心用户在直播间的滞留时间有什么规律可循。如果能够建立这个规律与运营动作(例如:主播是否展示才艺、直播间是否赠送礼物)之间的相关关系,那么就有可能通过合理的运营手段,增加用户在直播间的滞留时长,并最终达到提升销售额的目的。为此,需要探讨一个重要的问题:如何描述用户在直播间滞留时长的规律?显然,这不是一件容易的事情,因为这里有太多的不确定性。首先,不同用户之间的滞留时长各不相同。其次,即使同一个用户,多次进入直播间,每次的滞留时长也各不相同。因此用户的滞留时长具有很大的不确定性,可以考虑用某种概率分布来描述该规律。显然,正态分布不是最好的选择,因为一个用户的滞留时长不可能是负数,但是正态分布有正概率产生负数。因此,可能一种更好的尝试方向是:指数分布。指数分布只有一个未知参数,那就是均值。只要能够对均值作足够准确的估计,就可以把握指数分布的所有随机性质,从而理解用户在直播间的滞留时长所服从的不确定性规律。案例2:股票涨跌。从投资者的角度来看,如果不考虑具体的涨跌幅度,股票涨跌可以用一个0-1型随机变量来描述。在金融市场中,股票涨跌具有非常强的不确定性,精准预测未来某个交易日的股票是涨还是跌是一个极其困难的事情。但是,如果能把握股票上涨的一个相对更加长期的规律,就可以从大量的股票中找到具有高投资价值的股票进行投资,从而获得不错的收益。那么,如何衡量一支股票的涨跌情况呢?假设用随机变量Y表示某只股票是“涨”(Y=1)还是“跌”(Y=0)。那么股票的上涨概率就是P(Y=1)。如果能够通过股票在一段时间内的涨跌表现,对该股票的上涨概率P(Y=1)进行估计,就可以在一定程度上把握股票在一个比较长的时期内的涨跌规律。例如,在之前的章节中,我们使用了一种简单有效的估计方法,就是用一段时间内(比如n=100)股票上涨天数的占比,作为对该股票上涨概率的估计值。然而,这个估计值仍然是一个点估计量,它是具有不确定性的。比如,当缩短或拉长观察期(例如,n=50或n=200)时,股票上涨天数占比的取值可能就不同,这可能会影响对真实参数P(Y=1)的判断。为了解决这一问题,就需要进一步给出上涨概率P(Y=1)的区间估计,从而更好的把握上涨概率P(Y=1)的取值。案例3:消费者购物次数。许多大型零售商都设有数据分析部门,专门进行消费者购物行为的分析,其中数据分析人员非常关注的一个指标是某段时间内(比如一个月内)消费者的购物次数,因为它能够反映客户在该零售商消费的活跃度。消费者购物次数是具有不确定性的。在同一个月内,不同消费者的购物次数会由于消费水平、消费习惯等因素的不同而产生差异;对于同一个消费者,在不同月份的购物次数也会因购物需求的不同而产生差异。由于购物次数的不确定性,数据分析人员可能首先需要用一个分布来刻画它的规律,再做进一步的分析,比如通过建模分析探究购物次数的影响因素,从而提出更好的经营策略等。那么消费者购物次数的分布应该符合什么条件呢?首先这个分布中随机变量的取值最好没有上限,而且这个分布应该是一个取值为非负整数的离散分布。那么泊松分布也许是一个不错的选择。泊松分布只有一个参数,就是均值。只要对泊松分布的均值作出足够准确的估计,便可以把握消费者购物次数的不确定性规律。指数分布。上面几个案例涉及不同的分布形式,但它们的相同点都是需要对分布中的关键参数进行点估计和区间估计。首先以指数分布为例,探讨如何进行参数估计。假设有一组独立同分布的随机变量,其中任意一个变量都服从参数为的指数分布,因此该分布的期望为,方差为。如何对参数进行估计呢?我们在之前的章节中学习了两种经典的参数估计方法:矩估计和极大似然估计,因此下面首先使用这两种方法估计。首先研究矩估计。由于指数分布的期望为,因此可以考虑一阶矩,为此只需要用样本均值估计总体均值即可。所以的一个矩估计是。接下来再研究一下极大似然估计,首先需要写出对数似然函数:,然后计算对数似然函数对的导数,并求解导数等于0的方程,即可求得的极大似然估计,具体过程如下:由此可见,参数的基于一阶矩的矩估计和极大似然估计是相同的,都是样本均值,统一记为。显然具有不确定性,因而一定会产生估计误差。那么这个估计误差有多大呢?是不是随着样本量的增大而减小呢?为了直观说明,设定真实值,然后在不同样本量(n=10,100,1000)下,生成1000组数据,分别计算并绘制对比箱线图,如图2.5.1所示。可以看到,当样本量更大时,和之间的距离平均水平(以中位数计)更接近0,而且波动性更小。图2.5.1:指数分布中不同样本量下的的对比箱线图接下来研究和之间的差异服从什么分布。考虑三个不同的样本量(n=1,10,100),分别进行1000次实验,在每次实验中用得到的样本计算,然后将所有得到的1000个绘制成直方图,如图2.5.2所示。从图中可以看到,随着样本量的增大,的形状越来越近似于正态分布。这个结果并不意外,因为在2.3节中我们已经学习过中心极限定理:如果独立随机变量服从均值为,方差为的分布,无论该分布是哪一种分布,标准化随机变量都会随着样本量n增大而渐近地服从标准正态分布,其中以及。对指数分布而言,有而且。因此,标准化随机变量应近似服从一个标准正态分布,而且样本量越大近似效果越好。由此可以知道,也随样本量n增大而渐近地服从正态分布。计算一下可以知道其均值为0,方差为,相应的正态分布曲线也在图2.5.2中用红线画了出来。图2.5.2:指数分布中不同样本量下的直方图由中心极限定理知道,标准化随机变量渐近服从标准正态分布。因此,可以求解出在置信水平下的近似置信区间。数学细节如下:请注意这里用到了。于是得到的一个近似置信区间为:请注意,使用这个置信区间要求,也就是。在上面的求解过程中,转换不等式这个操作似乎稍微有些麻烦。造成麻烦的原因是的分母中也含有参数。有没有什么更简易的构造置信区间的方法呢?可以考虑用去代替的计算式分母中的。这就相当于用代替了中的。这个新的标准化变量仍然是渐近服从标准正态分布的,因此可得:由此可以获得的另一种近似置信区间为:同一个参数的置信区间,竟然有两种不同的构造方法。这个现象意外吗?不意外!就像对同一个参数,可能有不同的点估计方法(矩估计与极大似然估计)。因此也很有可能有不同的区间估计方法。当然这产生了一个问题:不同的置信区间,哪一个更好?这是一个很好的问题,更深入的研究可以从两方面展开。一方面是用极限理论去对比分析它们的理论性质。在控制置信度相同的前提下,从理论上对比两种置信区间的长度。另一方面是可以做随机模拟对比估计效果,在保证置信度相同的前提下,从数值模拟的角度对比置信区间的长度。更深入的讨论超出了本书的范畴。类似的问题在其他分布中也大量存在,为简单呈现,在接下来的讨论中,我们只讨论最简便的置信区间构造方式,下一节的样本量计算也以此为基础。请注意上面构造的置信区间是基于中心极限定理构造的近似的置信区间,所谓近似是指其真实的置信水平不是1-α,而是近似1-α。样本量越大,近似效果越好。如何理解这个渐近的置信水平呢?为此,可以先设置一个参数λ=1,并设定置信水平为1-α=95%,然后尝试不同的样本量n。对于一个给定的样本量n,用上文介绍的第二种构造方式构造一个置信区间,然后判断该区间是否覆盖真实参数。重复该实验1000次,并计算置信区间覆盖真实参数的比率,呈现在图2.5.3中。可见随着样本量的增大,置信区间的实际覆盖率(灰色柱子高度)逐渐接近理论水平95%(红色虚线)。这便是渐近置信水平中的“渐近”的含义,随着样本量增大,置信区间覆盖真实参数的概率渐近于1-α。图2.5.3:指数分布中不同样本量下λ的95%近似置信区间的覆盖率0-1分布。接下来讨论0-1分布的参数估计。假设有一组独立同分布的随机变量,其中任意一个变量只有0和1两个取值,并且定义,因此。进一步通过计算可以知道,此时0-1分布的期望为,方差为。如何对参数进行估计呢?仍然可以使用矩估计和极大似然估计两种方法。矩估计中,选择一阶矩,只需要用样本均值估计总体均值即可。所以的一个矩估计是。接下来进行极大似然估计,首先需要写出对数似然函数:,求该函数对的导数,然后令导数为0可得的极大似然估计如下:再次发现,在0-1分布中矩估计和极大似然估计是相同的,都是样本均值,记为。接下来考察估计量的估计误差随着样本量的增大会如何变化。设定,然后在不同样本量(n=10,100,1000)下,生成1000组数据,分别计算并绘制对比箱线图,如图2.5.4所示。可以看到,当样本量增加时,和之间的距离更接近0,波动性更小。图2.5.4:0-1分布中不同样本量下的的对比箱线图然后再研究服从什么分布。会不会和前面指数分布中的一样,渐近服从正态分布呢?考虑不同的样本量(n=1,10,100),分别进行1000次实验,在每次实验中用得到的样本计算,然后将所有得到的1000个绘制成直方图,再画出对应的正态分布概率密度曲线,如图2.5.5所示。可以看到,随着样本量n的增大,越来越近似正态分布。这个发现非常有趣,但并不令人惊讶。因为这是一个完全可以由中心极限定理解释的现象,详细情况如下。对于0-1分布,有而且,标准化随机变量为。由中心极限定理可知,该随机变量应渐近服从正态分布,因此也随样本量n增大而渐近地服从正态分布,而且样本量越大近似效果越好。图2.5.5:0-1分布中不同样本量下的直方图下面可以利用中心极限定理,构造的置信水平为(1-α)的近似置信区间。为使构造更加简便,用代替分母中的,得到的仍然是随着n的增大渐近服从标准正态分布的,所以有:于是得到的一个(1-α)近似置信区间为:前面提到,1-α是一个随着样本量n增大而渐近的置信水平。这就是说,置信区间覆盖参数真值的概率并不精确等于1-α,而是随着样本量的增大而逐渐趋于1-α。0-1分布的近似置信区间是否仍然符合这个规律呢?可以进行随机模拟来验证。先设置0-1分布的参数,并设定置信水平为1-α=95%,然后尝试不同的样本量n。对于一个给定的样本量n,构造一个置信区间,然后判断该区间是否覆盖真实参数。重复该实验1000次,并计算置信区间覆盖真实参数的比率(灰色柱子高度),呈现在图2.5.6中。由图可知,仍然符合渐近的规律,随着样本量的增大,置信区间的真实覆盖率逐渐接近理论水平95%(红色虚线)。图2.5.6:0-1分布中不同样本量下p的95%近似置信区间的覆盖率泊松分布。接下来讨论泊松分布参数的区间估计。泊松分布只有一个参数λ,仍然可以使用矩估计和极大似然估计两种方法对其进行估计。假设有一组独立同分布的随机变量,其中任意一个变量都服从参数为λ的泊松分布,于是有,。矩估计时,仍然考虑一阶矩,则。接下来计算λ的极大似然估计,写出对数似然函数,并通过求导可得:可以发现,关于泊松分布的参数λ的矩估计和极大似然估计也是一样的,都是样本均值,记为。接下来同样考察与的距离随样本量的变化。设定参数,在不同的样本量(n=10,100,1000)下分别进行1000次随机模拟,绘制的对比箱线图如图2.5.7所示,可见当样本量更大时,和之间的距离平均水平(以中位数计)更接近0,波动性更小。图2.5.7:泊松分布中不同样本量下的的对比箱线图再通过随机模拟验证一下的渐近分布。同样设置,考虑三个不同的样本量(n=1,10,100),分别进行1000次实验,在每次实验中计算,然后将所有得到的1000个绘制成直方图如图2.5.8所示。可见随着样本量的增大,的形状也越来越近似于正态分布。这再次验证了中心极限定理的威力!图2.5.8:泊松分布中不同样本量下的直方图接下来使用与前面两个分布相同的步骤,构造λ的置信区间。根据中心极限定理,标准化的随机变量随样本量n的增大渐近服从标准正态分布,所以当样本量n足够大时,可以有:因此,泊松分布中参数λ的一个近似(1-α)置信区间为:同样可以通过进行随机模拟来验证置信区间对真值λ的覆盖率是否接近1-α。设置参数,并设定置信水平为1-α=95%,然后尝试不同的样本量n。对于一个给定的样本量n,构造一个置信区间,然后判断该区间是否覆盖真实参数。重复该实验1000次,并计算置信区间覆盖真实参数的比率(灰色柱子高度),呈现在图2.5.9中。可以看到,仍然符合置信区间覆盖率随着样本量n的增大渐近于1-α=95%(红色虚线)的规律。图2.5.9:泊松分布中不同样本量下λ的95%近似置信区间的覆盖率一般分布的均值。以上已经讨论了指数分布、0-1分布和泊松分布这三种分布中参数的区间估计,这些都是对已知形式的特定分布进行参数估计的方法,其中构造置信区间的细节是因分布的不同而不同的。为讨论方便,我们称这一大类依赖于特定分布的置信区间构造方法为特定分布方法。而区别于特定分布方法的一般分布方法,可以对任意分布的均值的置信区间进行估计。假设有一组独立同分布的随机变量,只知道服从均值为,方差为的分布,但并不知道分布的具体形式。这时如果希望对均值进行区间估计,该怎么做呢?仍然可以使用中心极限定理,只要确保均值和方差存在就可以。具体而言,根据中心极限定理,知道随样本量n的增大渐近服从正态分布。由于是未知的,只好用估计值代替它,例如的一个估计量是。此时得到的仍然具有渐近正态性。确定置信水平α后,当样本量n足够大时,可以有:因此可得关于一般分布均值的一个(1-α)近似区间为:这与方差未知时正态分布中均值的区间估计结果是相同的。请问这个适用于大量一般分布的方法能不能用来为指数分布、0-1分布和泊松分布这些特定分布的参数提供区间估计呢?当然可以。但结果可能会与前面所介绍的特定分布方法略有不同。但哪一个区间估计更好呢?这是一个好问题!一般而言,特定分布方法构造的置信区间会比一般分布方法构造的置信区间更短,因此更精确,因为特定分布方法充分利用特定分布的分布信息。例如,如果我们知道某计数数据服从泊松分布,那么就能够知道该分布的均值等于方差,进而方差就没必要单独估计。取而代之的是集中所有数据信息把均值这一个参数估计出来。这是一个非常宝贵的先验知识,对一般分布而言是没有的。当然凡事有利必有弊。至少存在两种情况,特定分布方法并不优于一般分布方法。第一种情况很简单,那就是恰好两种方法构造的置信区间一样。例如,对于正态分布而言,两种方法构造的置信区间完全一样。还有一种情况,那就是真实分布其实并不是用户指定的那个特定分布。例如面对一个计数数据,用户觉得它应服从泊松分布,因此隐含了一个假设:均值等于方差。但是数据的真实分布的均值明显小于方差,那么此时根据基于泊松分布构造的置信区间是完全错误的,会产生严重偏差。但是,由于一般分布方法的有效性不依赖于特定的分布假设,因此一般分布方法构造的置信区间仍然是渐近有效的。从这个角度看,一般分布方法更加稳健。案例演示。接下来回到本节开头的三个实际案例,对每个案例分别用特定分布方法和一般分布方法进行分析,展示区间估计的应用,并对比特定分布方法和一般分布方法的不同。对案例1的直播间滞留时长,我们采用了某直播间某次直播中的500个用户数据。假设用户在直播间的滞留时长服从指数分布,然后用不同方法分别估计用户滞留时长均值的1-α=95%近似置信区间。首先用特定分布方法估计,置信区间为。需要计算指数分布参数λ的估计量,为0.9522。另外查表得,代入公式得置信区间为[0.8687,1.0357]。然后尝试采用一般分布方法,其置信区间表达式为。计算得到样本标准差为,所以得到滞留时长的95%近似置信区间为[0.8738,1.0305]。可以看到两种方法得到的置信区间很接近。对于案例2的股票涨跌情况,使用上证综指自2021年1月5日至2021年12月31日共242个交易日的涨跌数据。对每个交易日定义一个0-1型变量,如果上涨则,如果下跌则。使用两种不同的方法来构造该0-1分布中参数p的置信区间。首先使用特定分布方法,置信区间表达式为。计算得到,代入置信区间的表达式,得到上涨概率的一个95%近似置信区间为[0.4577,0.5836]。再尝试一般分布方法,进一步计算。代入,得到另一个95%近似置信区间为[0.4577,0.5836]。发现这个结果与特定分布方法得到的结果完全一样。其根本原因在于,对于0-1分布,可以验证。对于案例3,我们获得了美国某超市在2016年11月内87位消费者的购买次数的公开数据。假设消费者的购买次数服从泊松分布。仍然选定置信水平为1-α=95%。首先使用特定分布方法,区间估计表达式为。根据数据计算可得,代入表达式得到λ的95%近似置信区间为[1.6816,2.2725]。然后使用一般分布方法进行估计,计算标准差估计值,代入区间估计表达式,得到基于一般分布方法的95%近似置信区间为[1.6649,2.2891]。两种方法得到的结果仍然差距不大。两样本问题。我们目前讨论的都是对单个总体的区间估计。但在某些情况下,人们关心的总体不止一个。例如人们可能希望对两个总体的均值进行对比分析。为此需要从两个总体中各收集一些样本,这就构成了两个独立样本。然后在两个独立样本的帮助下对两个总体的均值差异作区间估计。记第一个独立样本的随机变量为,并假设服从均值为,方差为的未知分布;记另一个独立样本的随机变量为,并假设服从均值为,方差为的未知分布。请注意,这里并没有要求这两个分布是正态分布。我们关心的参数是两个总体的均值差异,而一个自然的矩估计是。那么计算一下可以知道的均值为,方差为。因此,可以对做一个标准化,得到。由于方差和未知,可以用和代替。根据中心极限定理,随着样本量和的增大而渐近服从标准正态分布。利用这个性质便可以求解出的(1-α)近似置信区间了:因此,关于两样本总体均值差异的一个1-α近似置信区间为:接下来通过随机模拟对上面的理论进行展示。简单起见,考虑两个总体都服从相同类型的分布且样本量相同。设置置信水平为1-α=95%,尝试两个总体都服从正态分布、指数分布、0-1分布和泊松分布四种情况,并尝试不同的样本量。对于一个给定的样本量n,构造一个的置信区间,然后判断该区间是否覆盖真实的。重复该实验1000次,并计算置信区间覆盖真实参数的比率(灰色柱子高度),呈现在图2.5.10中。可以看到,无论总体是哪一种分布,都符合置信区间覆盖率随着样本量n的增大渐近于1-α=95%(红色虚线)的规律。图2.5.10:不同分布、不同样本量下的95%近似置信区间的覆盖率非线性变换。目前讨论的目标参数都是均值,但有时候人们感兴趣的参数是均值μ的某种非线性变换,其中是一个给定的非线性变换,例如。此时的点估计与区间估计应如何构造呢?点估计的问题比较好解决。因为是关于的一个相合估计,因此自然是一个关于的良好估计。但是这里的关键问题是,与之间的差异有多大?服从什么分布?如何构造置信区间?为此考虑一个比较简单的情形。假设是一个关于的光滑函数,而且,其中是关于的一阶导数。因为是关于的相合估计,因此可知与的差异非常小,只要样本量足够大。在这种情况下,与的差异就可以通过泰勒展开式进行近似,即:。请注意,该近似符号的左端是一个关于与的非线性函数,但是其右端却是一个线性函数。根据中心极限定理,我们知道,应该渐近服从一个均值为0,方差为的正态分布。因此可以得到标准化随机变量应渐近服从标准正态分布。由于和通常都未知,因此可以用估计量和代替。所以可以构造一个(1-α)近似置信区间如下:因此得到近似置信区间为:接下来以为例,对上面的理论进行展示。具体而言,对新的估计目标,代入上式可得到它的(1-α)近似置信区间为。设置置信水平为1-α=95%,尝试总体服从正态分布、指数分布、0-1分布和泊松分布四种情况,并尝试不同的样本量n。对于一个给定的样本量n,构造一个的置信区间,然后判断该区间是否覆盖真实的。重复该实验1000次,并计算置信区间覆盖真实参数的比率(灰色柱子高度),呈现在图2.5.11中。可以看到,无论总体是哪一种分布,都符合置信区间覆盖率随着样本量n的增大渐近于1-α=95%(红色虚线)的规律。图2.5.11:不同分布、不同样本量的95%近似置信区间的覆盖率总结讨论。本节首先介绍了指数分布、0-1分布和泊松分布的区间估计方法,然后给出了适用于任意分布的一般分布方法,并展示了这些方法在实际案例数据中的应用。此外,还介绍了两样本问题和总体均值的非线性变换的区间估计方法。相信学习到这里,你已经对区间估计有了较为全面的了解。请注意,目前的学习都是基于已知的样本量去计算置信区间。样本量越大,置信区间越短。但是在很多情况下,我们对置信区间的长度是有预期的,是不能超过某个给定长度的。在这种情况下需要多大的样本量,才能让置信区间长度满足该预期呢?这就是下一节将要学习的内容。-
2023年8月16日
其他

图辅助分组网络自回归模型:基于贝叶斯框的研究

模型应用广泛,但其仍然有三方面的局限性。其一,若数据的时间长度较短,则估计结果较为不稳定,这在实际应用中有一定的缺陷;其二,在估计节点分组数目时,网络结构的信息没有得到较为充分的利用;其三,分组数量
2023年8月15日
其他

郭老师统计小课堂 | C.R.Rao:统计学的一百年

Rao这位百岁老人的传奇人生。他的一生经历了Pearson,Fisher也经历了大数据和人工智能。他的一生就是统计学的一百年。Rao现在还健在,他将继续见证统计学的第二个一百年!1.
2023年8月10日
其他

商务统计学基础 | 第二章 参数估计:正态分布方差的区间估计

点击上方"狗熊会"关注我们吧!在上一节中,我们讨论了正态分布总体均值的区间估计。除了总体均值(简称均值)之外,总体方差(简称方差)也是一个非常重要的参数。我们在2.1和2.2中探讨了总体方差的矩估计和极大似然估计的结果,使用这两种估计方法获得的都是的点估计量,那么如何构造它的区间估计呢?本节,我们就来重点研究方差的置信区间的估计形式。在此之前,我们首先通过几个案例来说明方差的重要性。案例1:金融风险。
2023年8月9日